JP2022537513A

JP2022537513A - 音場関連レンダリング

Info

Publication number: JP2022537513A
Application number: JP2021573579A
Authority: JP
Inventors: タピオビルカモユハ; オズカンコレイ; ライティネンミッコ－ビッレ
Original assignee: ノキアテクノロジーズオサケユイチア
Priority date: 2019-06-11
Filing date: 2020-06-03
Publication date: 2022-08-26
Also published as: JP2024028526A; GB201908346D0; WO2020249860A1; GB2584838A; EP3984252A1; US20220303710A1; EP3984252A4; CN114009065A

Abstract

【課題】音場関連オーディオ表現およびレンダリングのための装置および方法。【解決手段】フォーカス形状を定義するように構成された少なくとも１つのフォーカスパラメータを取得し、オーディオシーンを表す空間オーディオ信号を処理して、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対して、フォーカス形状の内の空間オーディオ信号の少なくとも一部の相対的なエンファシスを制御するように、修正されたオーディオシーンを表す処理済み空間オーディオ信号を生成し、処理された空間オーディオ信号を出力するのように構成された手段を含む、空間的なオーディオ再生のための装置であって、修正されたオーディオシーンが、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対するフォーカス形状の内の空間オーディオ信号の部分の少なくとも一部における相対的なエンファシスを可能にする装置。【選択図】図１ｂ

Description

本願発明は、音場関連オーディオ表現およびレンダリングのための装置および方法に関するものであるが、オーディオデコーダのためのオーディオ表現に限定されるものではない。

複数の視聴方向を持つメディアを提示するための空間的なオーディオ再生が知られている。この再生の例としては、（少なくとも）頭の向きを追跡できるヘッドマウントディスプレイ（またはヘッドマウントの電話）、または電話の位置／向きを変更することによってビュー方向を追跡できるヘッドマウントなしの電話画面、または任意のユーザ・インターフェースジェスチャーで、または周囲の画面での再生がある。

「複数の視聴方向を持つメディア」に関連する映像としては、例えば３６０度映像、１８０度映像など、従来の映像よりも実質的に視聴角度の広い映像が考えられる。従来の映像とは、通常、画面上に全体が表示され、視聴方向を変更するオプション（または特定の必要性）がない映像コンテンツのことである。

複数の視聴方向を持つビデオに関連するオーディオは、視聴方向が追跡され空間オーディオ再生に影響を与えるヘッドフォンや、サラウンドラウドスピーカのセットアップで提示することができる。

複数の視聴方向を持つ映像に関連付けられた空間オーディオは、マイクアレイ（例えば、ＯＺＯのようなＶＲカメラに取り付けられたアレイ、または手持ちのモバイルデバイス）からの空間オーディオキャプチャ、またはスタジオミックスなどの他のソースに由来することができる。また、オーディオコンテンツは、マイクキャプチャされたオーディオと追加された解説者トラックなど、複数のコンテンツタイプの混合物であることも可能である。

複数の視聴方向を持つ映像に関連する空間オーディオは、例えば、様々な形態が考えられる。球面調和オーディオ信号成分からなるアンビソニック信号（任意の次数）。球面高調波は、空間的に選択的なビーム信号のセットと考えることができる。現在、アンビソニックは、例えば、ＹｏｕＴｕｂｅ（登録商標）３６０ＶＲビデオサービスなどで活用されている。アンビソニックｓの利点は、シンプルでよく定義された信号表現であることです。サラウンドスピーカ信号（例：５．１）。現在、一般的な映画の空間オーディオは、この形式で伝えられています。サラウンドラウドスピーカ信号の利点は、シンプルでレガシーな互換性があることである。サラウンドラウドスピーカ信号のフォーマットに似たオーディオフォーマットには、時間的に変化する位置を持つオーディオチャンネルとみなすことができるオーディオオブジェクトを含むものがある。位置は、オーディオオブジェクトの方向と距離、または方向の両方を通知することができる。パラメトリック空間オーディオ、すなわち、知覚的に関連する周波数帯域の２つのオーディオチャネルのオーディオ信号と関連する空間メタデータなど、一部の最先端のオーディオ符号化方式と空間オーディオキャプチャ方式は、このような信号表現を適用している。空間メタデータは、基本的にオーディオ信号が受信側でどのように空間的に再生されるべきかを決定する（例えば、異なる周波数でどの方向に再生されるか）。パラメトリック空間オーディオの利点は、汎用性、品質、そしてエンコーディングに低いビットレートを使用できることである。

第１の態様によれば、フォーカス形状を定義するように構成された少なくとも１つのフォーカスパラメータを取得し、オーディオシーンを表す空間オーディオ信号を処理して、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対して、フォーカス形状の内の空間オーディオ信号の少なくとも一部の相対的なエンファシスを制御するように、修正されたオーディオシーンを表す処理済み空間オーディオ信号を生成し、処理された空間オーディオ信号を出力するように構成された手段を含む装置が提供される。ここで、修正されたオーディオシーンが、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対するフォーカス形状の内の空間オーディオ信号の部分の少なくとも一部における相対的なエンファシスを可能にする、ステップと、を有する。

少なくとも１つのフォーカスパラメータは、フォーカス量を定義するようにさらに構成されてもよく、空間オーディオ信号を処理するように構成された手段は、フォーカス量に従って、さらにフォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対して、フォーカス形状の内の空間オーディオ信号の部分の少なくとも一部における相対的エンファシスを制御するように、空間オーディオ信号を処理するように構成されることができる。

空間オーディオ信号を処理するように構成された手段は、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部と比較して、フォーカス形状の内の空間オーディオ信号の部分の少なくとも一部における相対的なエンファシスを増加させ、または相対的なエンファシスを減少させるように構成されることができる。

空間オーディオ信号を処理するように構成された手段は、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対して、フォーカス形状の内の空間オーディオ信号の少なくとも一部の相対的な音レベルを増加または減少させるように構成されることができる。

空間オーディオ信号を処理するように構成された手段は、フォーカス量に従って、フォーカス形状の外の空間オーディオ信号のの他の部分少なくとも一部に対して、フォーカス形状の内の空間オーディオ信号の部分の少なくとも一部における相対的サウンドレベルを増加または減少させるように構成されることができる。

前記手段は、前記処理された空間オーディオ信号を出力することの少なくとも１つの態様を制御するための再生制御情報を取得するように構成されてもよく、前記処理された空間オーディオ信号を出力するように構成された手段は、修正されたオーディオシーンを表す処理された空間オーディオ信号を処理して、再生制御情報に従った出力空間オーディオ信号を生成することと、オーディオシーンを表す空間オーディオ信号を処理するように構成された手段に先立って、再生制御情報に従って空間オーディオ信号を処理して、修正されたオーディオシーンを表す処理済空間オーディオ信号を生成し、処理済空間オーディオ信号を出力空間オーディオ信号として出力することとのうちの１つを実行するように構成されることができる。

空間オーディオ信号および処理された空間オーディオ信号は、それぞれのアンビソニック信号を含んでよく、空間オーディオ信号を処理して処理された空間オーディオ信号を生成するように構成された手段は、１つ以上の周波数サブバンドについて、空間オーディオ信号に関連付けられたアンビソニック信号を、定義されたパターンのビーム信号のセットに変換し、一組のビーム信号、フォーカス形状、およびフォーカス量に基づいて、一組の修正ビーム信号を生成し、前記修正ビーム信号を変換し、処理された空間オーディオ信号に関連する修正アンビソニック信号を生成すること、のように構成されることができる。

定義されたパターンは、平面上または体積上に等間隔に配置された定義された数のビームから構成される場合がある。

空間オーディオ信号および処理された空間オーディオ信号は、それぞれの高次アンビソニック信号から構成されることができる。

空間オーディオ信号および処理された空間オーディオ信号は、任意の次数のアンビソニック信号成分のサブセットから構成されることができる。

空間オーディオ信号および処理された空間オーディオ信号は、それぞれのパラメトリック空間オーディオ信号を含んでよく、パラメトリック空間オーディオ信号は、１つ以上のオーディオチャネルおよび空間メタデータを含んでよく、空間メタデータは、複数の周波数サブバンドに対するそれぞれの方向標示、エネルギー比パラメータ、および潜在的に距離標示を含むことができる。入力空間オーディオ信号を処理して、処理済み空間オーディオ信号を生成するように構成された手段は、空間メタデータと、フォーカス形状およびフォーカス量とに基づいて、１つ以上の周波数サブバンドについてスペクトル調整係数を計算し、前記１つ以上のオーディオチャネルの１つ以上の周波数サブバンドに対してスペクトル調整係数を適用して、１つ以上の処理済みオーディオチャネルを生成し、フォーカス形状、フォーカス量、および空間メタデータの少なくとも一部に基づいて、処理された空間オーディオ信号の１つ以上の周波数サブバンドに関連するそれぞれの修正エネルギー比パラメータを計算し、前記１つ以上の処理済みオーディオチャネル、前記修正エネルギー比率パラメータ、および前記エネルギー比率パラメータ以外の空間メタデータからなる処理済み空間オーディオ信号を構成するように構成されることができる。

空間オーディオ信号および処理された空間オーディオ信号は、マルチチャンネルラウドスピーカチャンネルおよび／またはオーディオオブジェクトチャンネルを含むことができる。空間オーディオ信号を処理された空間オーディオ信号に処理するように構成された手段は、それぞれのオーディオチャネル方向標示、フォーカス形状、およびフォーカス量に基づいて利得調整係数を計算し、利得調整係数をそれぞれのオーディオチャネルに適用し、そして、１つ以上の処理されたマルチチャンネルラウドスピーカオーディオチャンネルおよび／または１つ以上の処理されたオーディオオブジェクトチャンネルを含む処理された空間オーディオ信号を作るように構成され得る。

マルチチャンネルスピーカチャンネルおよび／またはオーディオオブジェクトチャンネルは、それぞれのオーディオチャンネル距離標示をさらに含み、演算利得調整係数は、オーディオチャンネル距離標示にさらに基づくものであってもよい。

この手段は、デフォルトのそれぞれのオーディオチャネル距離を決定するようにさらに構成されてもよく、コンピューティング利得調整係数は、オーディオチャネル距離に基づいてさらに構成されることができる。

フォーカス形状を定義するように構成された少なくとも１つのフォーカスパラメータは、フォーカス方向、フォーカス幅、フォーカスの高さ、フォーカス半径、フォーカス距離フォーカス深度、フォーカス範囲、フォーカス径、および、フォーカス形状キャラクタライザのうちの少なくとも１つを含むことができる。

前記手段は、少なくとも１つの方向センサと少なくとも１つのユーザ入力とを備えるセンサ構成からフォーカス入力を得るようにさらに構成されてもよく、前記フォーカス入力は、少なくとも１つの方向センサの方向に基づくフォーカス形状のフォーカス方向の標示、および少なくとも１つのユーザ入力に基づくフォーカス幅の標示、フォーカス入力は、少なくとも１つのユーザ入力に基づくフォーカス量の標示をさらに含むことができる。

第２の態様によれば、フォーカス形状を定義するように構成された少なくとも１つのフォーカスパラメータを取得するステップと、オーディオシーンを表す空間オーディオ信号を処理して、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対して、フォーカス形状の内の空間オーディオ信号の少なくとも一部の相対的エンファシスを制御するように、修正されたオーディオシーンを表す処理済み空間オーディオ信号を生成するステップと処理された空間オーディオ信号を出力するステップであって、修正されたオーディオシーンが、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対するフォーカス形状の内の空間オーディオ信号の部分の少なくとも一部における相対的なエンファシスを可能にする、ステップと、を含む方法が提供される。

少なくとも１つのフォーカスパラメータは、フォーカス量を定義するようにさらに構成されてもよく、空間オーディオ信号を処理することは、フォーカス量に従って、さらにフォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対して、フォーカス形状の内の空間オーディオ信号のの部分少なくとも一部における相対的なエンファシスを制御するように、空間オーディオ信号を処理することを含むことができる。

空間オーディオ信号を処理することは、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部と比較して、フォーカス形状の内の空間オーディオ信号の部分の少なくとも一部における相対的なエンファシスを増加させる、または相対的なエンファシスを減少させることを含むことができる。

空間オーディオ信号を処理することは、フォーカス形状の空間オーディオ信号の部分の少なくとも一部において、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部と比較して相対的サウンドレベルを増加または減少させることを含むことができる。

空間オーディオ信号を処理することは、フォーカス量に従って、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対して、フォーカス形状の内の空間オーディオ信号の部分の少なくとも一部における相対的サウンドレベルを増加または減少させることを含むことができる。

この方法は、処理された空間オーディオ信号を出力することの少なくとも１つの態様を制御するための再生制御情報を取得することを含んでもよく、処理された空間オーディオ信号を出力することは、前記修正されたオーディオシーンを表す処理された空間オーディオ信号を処理して、前記再生制御情報に従った出力空間オーディオ信号を生成するステップと、オーディオシーンを表す空間オーディオ信号を処理するように構成された手段の前に、再生制御情報に従って空間オーディオ信号を処理して、修正されたオーディオシーンを表す処理済空間オーディオ信号を生成し、処理済空間オーディオ信号を出力空間オーディオ信号として出力するステップと、のうちの１つを実行することを含むことができる。

空間オーディオ信号および処理された空間オーディオ信号は、それぞれのアンビソニック信号を含んでよく、処理された空間オーディオ信号を生成するために空間オーディオ信号を処理することは、１つ以上の周波数サブバンドについて、空間オーディオ信号に関連するアンビソニック信号を、定義されたパターンのビーム信号のセットに変換するステップと、一組のビーム信号、フォーカス形状、およびフォーカス量に基づいて、一組の修正ビーム信号を生成するステップと、前記修正ビーム信号を変換して、前記処理された空間オーディオ信号に関連する修正アンビソニック信号を生成するステップと、を含むことができる。

空間オーディオ信号および処理された空間オーディオ信号は、それぞれのパラメトリック空間オーディオ信号を含んでよく、パラメトリック空間オーディオ信号は、１つ以上のオーディオチャネルおよび空間メタデータを含んでよく、空間メタデータは、複数の周波数サブバンドに対するそれぞれの方向標示、エネルギー比パラメータ、および潜在的に距離標示を含むことができる。入力空間オーディオ信号を処理して処理済み空間オーディオ信号を生成することは、空間メタデータと、フォーカス形状およびフォーカス量とに基づいて、１つ以上の周波数サブバンドについてスペクトル調整係数を計算するステップと、を含んでよく、前記１つ以上のオーディオチャネルの１つ以上の周波数サブバンドに対してスペクトル調整係数を適用して、１つ以上の処理済みオーディオチャネルを生成するステップとフォーカス形状、フォーカス量、および空間メタデータの少なくとも一部に基づいて、処理された空間オーディオ信号の１つ以上の周波数サブバンドに関連するそれぞれの修正エネルギー比パラメータを計算するステップと、前記１つ以上の処理済みオーディオチャネル、前記修正エネルギー比率パラメータ、および前記エネルギー比率パラメータ以外の空間メタデータを含む処理済み空間オーディオ信号を構成するステップと、を含むことができる。

空間オーディオ信号および処理された空間オーディオ信号は、マルチチャンネルラウドスピーカチャンネルおよび／またはオーディオオブジェクトチャンネルを含んでよく、空間オーディオ信号を処理された空間オーディオ信号に処理することは、それぞれのオーディオチャネル方向標示、フォーカス形状、およびフォーカス量に基づいて利得調整係数を計算するステップと、利得調整係数をそれぞれのオーディオチャネルに適用するステップと、１つ以上の処理されたマルチチャンネルラウドスピーカオーディオチャンネルおよび／または１つ以上の処理されたオーディオオブジェクトチャンネルを含む処理された空間オーディオ信号を構成するステップと、を含むことができる。

マルチチャンネルスピーカチャンネルおよび／またはオーディオオブジェクトチャンネルは、それぞれのオーディオチャンネル距離標示をさらに含み、コンピューティング利得調整係数は、オーディオチャンネル距離標示に基づいてさらに行われてもよい。

本方法は、デフォルトのそれぞれのオーディオチャネル距離を決定することをさらに含み、コンピューティング利得調整係数は、オーディオチャネル距離に基づいてさらに決定されることができる。フォーカス形状を定義するように構成された少なくとも１つのフォーカスパラメータは、フォーカス方向、フォーカス幅、フォーカスの高さ、フォーカス半径、フォーカス距離、フォーカス深度、フォーカス範囲、フォーカス径、フォーカス形状キャラクタライザのうちの少なくとも１つを含むことができる。

本方法は、少なくとも１つの方向センサと少なくとも１つのユーザ入力とを備えるセンサ配置からフォーカス入力を得ることをさらに含み、フォーカス入力は、少なくとも１つの方向センサの方向に基づく、フォーカス形状のフォーカス方向の標示、および少なくとも１つのユーザ入力に基づくフォーカス幅の標示、を含むことができる。

フォーカス入力は、少なくとも１つのユーザ入力に基づくフォーカス量の標示をさらに含むことができる。

第３の態様によれば、少なくとも１つのプロセッサと、コンピュータプログラムコードを含む少なくとも１つのメモリと、を備える装置であって、少なくとも１つのメモリおよびコンピュータプログラムコードは、少なくとも１つのプロセッサを用いて、装置に少なくとも、フォーカス形状を定義するように構成された少なくとも１つのフォーカスパラメータを取得するステップとオーディオシーンを表す空間オーディオ信号を処理して、フォーカス形状の内の空間オーディオ信号の部分の少なくとも一部において、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対する相対的なエンファシスを制御するように、修正されたオーディオシーンを表す処理済み空間オーディオ信号を生成するステップと、処理された空間オーディオ信号を出力し、修正されたオーディオシーンは、フォーカス形状の外にある空間オーディオ信号の他の部分の少なくとも一部と比較して、少なくとも一部のフォーカス形状の内の空間オーディオ信号の部分における相対的なエンファシスを可能にするステップとを実行させるように構成される装置が提供される。

少なくとも１つのフォーカスパラメータは、フォーカス量を定義するようにさらに構成されてもよく、空間オーディオ信号を処理するようにされた装置は、フォーカス量に従って、さらにフォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部と相対的に、フォーカス形状の内の空間オーディオ信号の部分の少なくとも一部における相対的エンファシスを制御するように、空間オーディオ信号を処理するようにされることができる。空間オーディオ信号を処理するようにされた装置は、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部と比較して、フォーカス形状の内の空間オーディオ信号の部分の少なくとも一部における相対的なエンファシスを増加させる、または相対的なエンファシスを減少させるようにされることができる。

空間オーディオ信号を処理するようにされた装置は、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部と比較して、フォーカス形状の内の空間オーディオ信号の部分の少なくとも一部における相対的サウンドレベルを増加または減少させるようにされることができる。

空間オーディオ信号を処理するようにされた装置は、フォーカス量に従って、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対して、フォーカス形状の内の空間オーディオ信号の部分の少なくとも一部における相対的サウンドレベルを増加または減少させるようにされることができる。

装置は、処理された空間オーディオ信号を出力することの少なくとも１つの態様を制御するための再生制御情報を取得するようにされてもよく、処理された空間オーディオ信号を出力するようにされた装置は、修正されたオーディオシーンを表す処理された空間オーディオ信号を処理して、再生制御情報に従って出力空間オーディオ信号を生成するステップ、オーディオシーンを表す空間オーディオ信号を処理するように構成された手段の前に、再生制御情報に従って空間オーディオ信号を処理して、修正されたオーディオシーンを表す処理済空間オーディオ信号を生成し、処理済空間オーディオ信号を出力空間オーディオ信号として出力するステップのうちの１つを実行するようにされることができる。

空間オーディオ信号および処理された空間オーディオ信号は、それぞれのアンビソニック信号を含んでよく、処理された空間オーディオ信号を生成するために空間オーディオ信号を処理させる装置は、１つ以上の周波数サブバンドについて、空間オーディオ信号に関連するアンビソニック信号を、定義されたパターンのビーム信号のセットに変換することと、一組のビーム信号、フォーカス形状、およびフォーカス量に基づいて、一組の修正ビーム信号を生成することと、前記修正ビーム信号を変換して、処理された空間オーディオ信号に関連する修正アンビソニック信号を生成することと、を行わせることができる。

空間オーディオ信号および処理された空間オーディオ信号は、それぞれのパラメトリック空間オーディオ信号を含んでよく、パラメトリック空間オーディオ信号は、１つ以上のオーディオチャネルおよび空間メタデータを含んでよく、空間メタデータは、複数の周波数サブバンドに対するそれぞれの方向標示、エネルギー比パラメータ、および潜在的に距離標示を含んでよく、入力空間オーディオ信号を処理して、処理済み空間オーディオ信号を生成するようにされた装置は、１）空間オーディオ信号が、複数の周波数帯のうちの複数の周波数帯のうちの複数の周波数帯のうちの一部の周波数帯のためのそれぞれの方向標示を含んでよく、２）空間オーディオ信号が、複数の周波数帯のうちの複数の周波数帯のうちの複数の周波数帯のための複数の方向標示を含んでよく、３）空間メタデータが、複数の周波数帯のうちの複数の周波数帯のうちの一部の周波数帯のためのそれぞれの方向標示を含んでよい空間メタデータと、フォーカス形状およびフォーカス量と、に基づいて、１つ以上の周波数サブバンドについてスペクトル調整係数を計算するステップと、前記１つ以上のオーディオチャネルの１つ以上の周波数サブバンドに対してスペクトル調整係数を適用して、１つ以上の処理済みオーディオチャネルを生成するステップと、フォーカス形状、フォーカス量、および空間メタデータの少なくとも一部に基づいて、処理された空間オーディオ信号の１つ以上の周波数サブバンドに関連するそれぞれの修正エネルギー比パラメータを計算するステップと、前記１つ以上の処理済みオーディオチャネル、前記修正エネルギー比率パラメータ、および前記エネルギー比率パラメータ以外の空間メタデータからなる処理済み空間オーディオ信号を構成するステップと、を行わせることができる。

空間オーディオ信号および処理された空間オーディオ信号は、マルチチャンネルラウドスピーカチャンネルおよび／またはオーディオオブジェクトチャンネルを含んでよく、空間オーディオ信号を処理された空間オーディオ信号に処理させる装置は、それぞれのオーディオチャネル方向標示、フォーカス形状、およびフォーカス量に基づいて、利得調整係数を計算するステップと、利得調整係数をそれぞれのオーディオチャネルに適用するステップと、１つ以上の処理されたマルチチャンネルラウドスピーカオーディオチャンネルおよび／または１つ以上の処理されたオーディオオブジェクトチャンネルを含む処理された空間オーディオ信号を構成するステップと、を実行することができる。

マルチチャンネルスピーカチャンネルおよび／またはオーディオオブジェクトチャンネルは、それぞれのオーディオチャンネル距離標示をさらに含み、演算利得調整係数は、オーディオチャンネル距離標示に基づいてさらに決定されることができる。装置は、デフォルトのそれぞれのオーディオチャネル距離を決定するようにさらに引き起こされてもよく、コンピューティング利得調整係数は、オーディオチャネル距離に基づいてさらに決定されることができる。フォーカス形状を定義するように構成された少なくとも１つのフォーカスパラメータは、フォーカス方向フォーカス幅フォーカスの高さフォーカス半径フォーカス距離フォーカス深度フォーカス範囲フォーカス径フォーカス形状キャラクタライザのうちの少なくとも１つを含むことができる。

装置は、少なくとも１つの方向センサと少なくとも１つのユーザ入力とを備えるセンサ構成からフォーカス入力を得るようにさらに引き起こされてもよく、フォーカス入力は、少なくとも１つの方向センサの方向に基づく、フォーカス形状のフォーカス方向の標示、および少なくとも１つのユーザ入力に基づくフォーカス幅の標示を含むことができる。

第４の態様によれば、フォーカス形状を定義するように構成された少なくとも１つのフォーカスパラメータを取得するように構成されたフォーカスパラメータ取得回路、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対して、フォーカス形状の内の空間オーディオ信号の部分の少なくとも一部における相対的なエンファシスを制御するように、オーディオシーンを表す空間オーディオ信号を処理して、修正されたオーディオシーンを表す処理済空間オーディオ信号を生成するように構成された空間オーディオ信号処理回路、および処理された空間オーディオ信号を出力するように構成された出力制御回路であって、修正されたオーディオシーンが、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対する、フォーカス形状の内の空間オーディオ信号の少なくとも一部の相対的エンファシスを可能にする、出力制御回路を備える装置が提供される。

第５の態様によれば、装置に少なくとも、フォーカス形状を定義するように構成された少なくとも１つのフォーカスパラメータを取得するステップと、オーディオシーンを表す空間オーディオ信号を処理して、フォーカス形状の内の空間オーディオ信号の部分の少なくとも一部において、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部と比較して相対的なエンファシスを制御するように、修正されたオーディオシーンを表す処理済み空間オーディオ信号を生成するステップと、処理された空間オーディオ信号を出力するステップであって、修正されたオーディオシーンが、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対するフォーカス形状の内の空間オーディオ信号の部分の少なくとも一部における相対的なエンファシスを可能にする、ステップと、を実行させるための命令［またはプログラム命令を含むコンピュータ可読媒体］を含むコンピュータプログラムが提供される。

第６の態様によれば、装置に少なくとも、フォーカス形状を定義するように構成された少なくとも１つのフォーカスパラメータを取得するステップと、オーディオシーンを表す空間オーディオ信号を処理して、フォーカス形状の内の空間オーディオ信号の部分の少なくとも一部において、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部と比較して相対的にエンファシスを制御するように、修正されたオーディオシーンを表す処理された空間オーディオ信号を生成するステップと、処理された空間オーディオ信号を出力するステップであって、修正されたオーディオシーンが、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対するフォーカス形状の内の空間オーディオ信号の部分の少なくとも一部における相対的なエンファシスを可能にする、ステップと、を実行させるためのプログラム命令を含む非一時的なコンピュータ可読媒体が提供される。

第７の態様によれば、フォーカス形状を定義するように構成された少なくとも１つのフォーカスパラメータを得るための手段と、オーディオシーンを表す空間オーディオ信号を処理して、フォーカス形状の内の空間オーディオ信号の部分の少なくとも一部において、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対して相対的なエンファシスを制御するように、修正されたオーディオシーンを表す処理済み空間オーディオ信号を生成するための手段と、処理された空間オーディオ信号を出力する手段であって、修正されたオーディオシーンが、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対するフォーカス形状の内の空間オーディオ信号の少なくとも一部の相対的なエンファシスを可能にする、手段と、を備える装置が提供される。

第８の態様によれば、装置に少なくとも、フォーカス形状を定義するように構成された少なくとも１つのフォーカスパラメータを取得するステップと、オーディオシーンを表す空間オーディオ信号を処理して、フォーカス形状の内の空間オーディオ信号の部分の少なくとも一部において、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部と比較して相対的にエンファシスを制御するように、修正されたオーディオシーンを表す処理済み空間オーディオ信号を生成するステップと、処理された空間オーディオ信号を出力するステップであって、修正されたオーディオシーンが、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対するフォーカス形状の内の空間オーディオ信号の部分の少なくとも一部における相対的なエンファシスを可能にする、ステップと、を実行させるためのプログラム命令を含むコンピュータ可読媒体が提供される。上記に記載の方法の作用を実行するための手段を含む装置。上記の方法の作用を実行するように構成された装置。コンピュータに上記の方法を実行させるためのプログラム命令を含むコンピュータプログラム。媒体に格納されたコンピュータプログラム製品は、装置に本明細書に記載の方法を実行させることができる。

電子デバイスは、本明細書に記載されるような装置を含んでいてもよい。

チップセットは、本明細書に記載の装置から構成されることができる。

本願発明の実施形態は、技術の現状に関連する問題点を解決することを目的とする。

本願のより良い理解のために、次に、添付の図面を例として参照する。
図１ａおよび１ｂは、オーディオフォーカス領域またはエリアを示す例示的なサウンドシーンを示す。図１ａおよび１ｂは、オーディオフォーカス領域またはエリアを示す例示的なサウンドシーンを示す。図２ａおよび２ｂは、いくつかの実施形態による例示的な再生装置および再生装置をオペレーションさせる方法を概略的に示している。図２ａおよび２ｂは、いくつかの実施形態による例示的な再生装置および再生装置をオペレーションさせる方法を概略的に示している。図３は、いくつかの実施形態において適用される球状高調波パターンおよびこれらの球状高調波パターンの選択されたサブセットを模式的に示す図である。図４は、アンビソニック信号および２０度の例示的なフォーカス方向に整列した変換されたビーム信号に対応するビームパターンを概略的に示している。図５ａおよび５ｂは、いくつかの実施形態による、高次アンビソニックオーディオ信号入力を有する図２ａに示すような例示的なフォーカスプロセッサと、例示的なフォーカスプロセッサをオペレーションさせる方法とを模式的に示している。図５ａおよび５ｂは、いくつかの実施形態による、高次アンビソニックオーディオ信号入力を有する図２ａに示すような例示的なフォーカスプロセッサと、例示的なフォーカスプロセッサをオペレーションさせる方法とを模式的に示している。図６は、フォーカス方向が２０度、幅が４５度の例の処理の様子を模式的に示したものである。図７は、フォーカス方向がマイナス９０度、幅が９０度の更なる例の処理を模式的に示すビジュアライゼーション図である。図８Ａおよび８Ｂは、いくつかの実施形態による、パラメトリック空間オーディオ信号入力を有する図２Ａに示す例示的なフォーカスプロセッサと、例示的なフォーカスプロセッサをオペレーションさせる方法とを概略的に示す図である。図８Ａおよび８Ｂは、いくつかの実施形態による、パラメトリック空間オーディオ信号入力を有する図２Ａに示す例示的なフォーカスプロセッサと、例示的なフォーカスプロセッサをオペレーションさせる方法とを概略的に示す図である。図９ａおよび９ｂは、いくつかの実施形態による、マルチチャンネルおよび／またはオーディオオブジェクトのオーディオ信号入力と、例示的なフォーカスプロセッサをオペレーションさせる方法とを有する図２ａに示された例示的なフォーカスプロセッサを概略的に示す図である。図９ａおよび９ｂは、いくつかの実施形態による、マルチチャンネルおよび／またはオーディオオブジェクトのオーディオ信号入力と、例示的なフォーカスプロセッサをオペレーションさせる方法とを有する図２ａに示された例示的なフォーカスプロセッサを概略的に示す図である。図１０は、いくつかの実施形態による、フォーカス距離と半径の入力に基づく例示的なフォーカス幅の決定を示す。図１１ａおよび図１１ｂは、いくつかの実施形態による、高次アンビソニックオーディオ信号入力を有する図２ａに示すような例示的な再生プロセッサおよび例示的な再生プロセッサのオペレーション方法を模式的に示している。図１１ａおよび図１１ｂは、いくつかの実施形態による、高次アンビソニックオーディオ信号入力を有する図２ａに示すような例示的な再生プロセッサおよび例示的な再生プロセッサのオペレーション方法を模式的に示している。図１２ａおよび図１２ｂは、いくつかの実施形態によるパラメトリック空間オーディオ信号入力を有する図２ａに示すような例示的な再生プロセッサと、例示的な再生プロセッサをオペレーションさせる方法とを概略的に示す図である。図１２ａおよび図１２ｂは、いくつかの実施形態によるパラメトリック空間オーディオ信号入力を有する図２ａに示すような例示的な再生プロセッサと、例示的な再生プロセッサをオペレーションさせる方法とを概略的に示す図である。図１３は、いくつかの実施形態の例示的な実装を示す図である。図１４は、いくつかの実施形態による、フォーカス方向、フォーカス量、およびフォーカス幅を制御するための例示的なコントローラを示す図である。図１５は、いくつかの実施形態による高次アンビソニックスオーディオ信号の処理に基づく処理出力例を示す図である。図１６は、示された装置を実施するのに適した例示的な装置を示す。

以下では、空間オーディオ信号の効率的なレンダリングおよび再生の提供のための好適な装置および可能な機構についてさらに詳細に説明する。

これまでの空間オーディオ信号の再生例では、ユーザがフォーカス方向とフォーカス量を制御することが可能であった。しかし、いくつかの状況では、フォーカス方向／量のそのような制御は十分でない場合がある。状況によっては、制御インタフェースを有するユーザがフォーカス形状を制御できるようにすることが望ましい場合がある。音場では、アンビエント音だけでなく、特定の視聴方向における複数の支配的な音源など、多くの異なる特徴が存在する場合がある。あるユーザは、音場の特定の特徴を聞くことを好むかもしれないが、他のあるユーザは、どの視聴方向が望ましいかによって音場の代替的な特徴を聞くことを好むかもしれない。そのような再生オーディオは、１つ以上の好みに依存し、ユーザ関連の好みに基づいて構成可能であることが理解される。再生装置から望まれる性能は、様々な形状または領域（例えば、狭い、広い、浅い、深い、近い、遠い）へのフォーカスを制御できるように空間音響の再生を構成することである。

一例として、単に一方向ではなく、セクタ（または円錐または別の空間スパンまたは範囲）内に関心のあるオーディオコンテンツが存在する場合がある。具体的には、フォーカスの空間スパンを制御することが有用である場合がある。以下に説明する図１ａ、１ｂは、再生された空間オーディオ信号を聴く際に、ユーザが何を知覚することを意図しているかを示したものである。例えば、図１ａに例示されるように、ユーザの一方の側に関心のあるソースが存在し、ユーザの他方の側に気が散るソースが存在し得る。図１ａは、定義された向きで配置されるユーザ１０１を示す。オーディオシーン内には、フォーカス方向および幅によって定義される所望のフォーカス領域１０３内にある、例えば劇場演劇内の話し手のような関心源１０５が存在する。さらに、ビュー方向の後ろなど、ビュー方向の外側にある観客または他のアンビエントオーディオコンテンツ１０７が存在する場合がある。

さらに、ユーザは、時間の経過とともにセクタの幅を変更することを望むかもしれない。例えば、最初は（図１ａに示すように）フォーカスセクタを比較的広く保つことによって演劇のすべてのソースにフォーカスを合わせ、その後、フォーカスセクタを狭くすることによって特定のソースにフォーカスを合わせる。

別の例として、所望のまたは興味深いオーディオコンテンツは、ある距離（リスナーに対して、または別の位置に対して）にある場合がある。例えば、ある方向のある距離に望ましくないまたは興味のないオーディオソースがあり、同じ方向（またはほぼ同じ方向）の別の距離に望ましいまたは興味のあるオーディオソースがある場合がある。これは、図１ｂに示されている。図１ｂは、例えば、中心位置と半径によって定義される所望のフォーカス領域１０３内にあるテーブルの周りの例えばトーカーなどの関心のあるソース１０５とともにオーディオシーン内に定義された方向で位置するユーザ１０１を示す。さらに、左側の環境オーディオコンテンツ１５１、音楽ソースオーディオコンポーネント１５５、および所望のフォーカス領域の外にある関心ソースの向こうの他の話者オーディオコンテンツ１５３などの他のアンビエントオーディオコンテンツが存在する可能性がある。このような実施形態では、オーディオフォーカス領域または形状は、中心フォーカス位置とフォーカス半径とによって決定される。

したがって、本明細書で論じるような実施形態は、（フォーカス方向および量に加えて）フォーカス形状の制御を提供しようとするものである。本明細書で説明される実施形態に関して議論されるような概念は、制御されたオーディオフォーカス形状上のオーディオシーンが変化するが信号フォーマットは同じままであり得るオーディオフォーカス形状の制御を提供することによって、複数の視聴方向を有するメディア再生における空間オーディオ再生に関連するものである。

実施形態では、選択された方向に対応する、フォーカス幅フォーカスの高さフォーカス半径フォーカス距離およびフォーカス深度のパラメータのいずれか（または２つまたはすべての組み合わせ）を調整することにより、選択可能な方向に対応する少なくとも１つのフォーカス形状パラメータを提供する。いくつかの実施形態におけるこのパラメータセットは、任意の形状を定義するパラメータから構成される。

空間オーディオ信号処理は、いくつかの実施形態において、複数の視聴方向を有するメディアに関連する空間オーディオ信号を取得するステップと、フォーカス方向および量パラメータを取得するステップと、少なくとも１つのフォーカ所望のフォーカス特性を有するように空間オーディオ信号を変更するステップと、所望のフォーカス特性を有するように空間オーディオ信号を変更するステップと、（ヘッドフォンまたはラウドスピーカを使用する）修正された空間オーディオ信号を再生するステップとによって実行することができる。

得られた空間オーディオ信号は、例えば、アンビソニック信号、ラウドスピーカ信号、オーディオチャンネルのセットと関連する空間メタデータなどのパラメトリック空間オーディオフォーマットであってもよい。

フォーカス形状は、いくつかの実施形態では、どのパラメータが利用可能であるかに依存してもよい。例えば、方向、幅、および高さのみを有する場合、形状は、楕円体コーン型ボリュームであってよい。別の例として、距離および深さのみを有する場合、フォーカス形状は、中空の球体であってもよい。幅／高さおよび／または奥行きを有しない場合、それらはあるデフォルト値を有するとみなしてもよい。さらに、いくつかの実施形態では、任意のフォーカス形状を用いてもよい。

フォーカス量は、いくつかの実施形態において、「度（ｄｅｇｒｅｅ）」またはフォーカスをどのくらい行うかを決定してもよい。例えばフォーカスは０％から１００％であってよく、０％は元のサウンドシーンを変更せずに維持することを意味し、１００％は所望の空間形状に最大にフォーカスすることを意味する。

いくつかの実施形態では、異なるユーザが異なるフォーカス特性を有することを望む場合があり、元の空間オーディオ信号は、個々の好みに基づいて、各ユーザのために個別に変更および再生される場合がある。

図２ａは、一例による空間オーディオ処理装置２５０のいくつかの構成要素および／またはエンティティのブロック図を示す。この図に示され、後にさらに詳述される２つの別個のステップ（フォーカスプロセッサ＋再生プロセッサ）は、統合されたプロセスとして実装され得ること、またはいくつかの例では、本明細書に記載されるのと逆の順序（再生プロセッサオペレーションが次にフォーカスプロセッサオペレーションに続く場合）で実装され得ることは理解されよう。空間オーディオ処理装置２５０は、入力オーディオ信号とさらにフォーカスパラメータ２０２を受信し、入力オーディオ信号２００に基づいて、フォーカスパラメータ２０２に依存してフォーカス音成分２０４を有するオーディオ信号を導出するように構成されたオーディオフォーカスプロセッサ２０１からなる（フォーカス方向、フォーカス量、フォーカスの高さ、フォーカス半径、フォーカス距離、およびフォーカス深度を含むことができる）。いくつかの実施形態では、装置は、フォーカス形状が少なくとも１つのフォーカスパラメータ（フォーカス形状を定義するように構成されることができる）を含んでいるフォーカス形状を得るように構成され得る。空間オーディオ処理装置２５０は、フォーカス音成分２０４と再生制御情報２０６とを受信するように構成され、オーディオ再生プロセッサ２０７におけるフォーカス音成分を有する空間オーディオ信号の処理に係る少なくとも一つの態様を制御するのに役立つ再生制御情報２０６にさらに依存して、フォーカス音成分を有するオーディオ信号に基づいて所定のオーディオフォーマットで出力オーディオ信号２０８を導出するように構成されるオーディオ再生プロセッサ２０７をさらに含むことができる。再生制御情報２０６は、再生方向（または再生方向）の標示および／または適用可能なラウドスピーカ構成の標示を含んでいてもよい。上述した空間オーディオ信号の処理方法を考慮して、オーディオフォーカスプロセッサ２０１は、受信したフォーカス量に従って、受信したフォーカス領域における空間オーディオ信号の少なくとも一部におけるエンファシスを制御するようにオーディオシーンを変更することによって、空間オーディオ信号を処理する態様を実施するように配置されることができる。オーディオ再生プロセッサ２０７は、観察された方向および／または位置に基づいて処理された空間オーディオ信号を修正されたオーディオシーンとして出力してもよく、修正されたオーディオシーンは、フォーカス領域における空間オーディオ信号の少なくとも前記部分について、受信したフォーカス量に応じたエンファシスを実証している。

図２ａの説明では、入力オーディオ信号、フォーカス音成分を有するオーディオ信号、および出力オーディオ信号の各々は、予め定義された空間オーディオフォーマットにおけるそれぞれの空間オーディオ信号として提供される。したがって、これらの信号は、それぞれ、入力空間オーディオ信号、フォーカス音成分を有する空間オーディオ信号、および出力空間オーディオ信号と呼ばれることがある。前述の線に沿って、典型的には、空間オーディオ信号は、オーディオシーンのそれぞれの特定の位置にある１つ以上の指向性音源と、オーディオシーンの雰囲気の両方を含むオーディオシーンを伝える。しかし、いくつかのシナリオでは、空間オーディオシーンは、アンビエンスを伴わない１つ以上の指向性音源、または指向性音源を伴わないアンビエンスを含む場合がある。この点で、空間オーディオ信号は、オーディオシーン内で一定の位置（例えば、リスニングポイントに対する一定の到来方向および一定の相対強度）を有する明確な音源を表す１つ以上の指向性音成分および／またはオーディオシーン内の環境音を表す環境音成分を伝える情報を含んでいる。オーディオシーンを指向性サウンドコンポーネント（複数可）とアンビエントコンポーネントに分割することは、一般的に表現または近似に過ぎないが、実際のサウンドシーンは、広い音源やコヒーレントな音響反射など、より複雑な特徴を含む場合があることに注意すべきである。しかしながら、そのような複雑な音響的特徴があっても、オーディオシーンを直接成分と周囲成分の組み合わせとして概念化することは、少なくとも知覚的な意味において、典型的に公正な表現または近似である。

一般に、入力オーディオ信号と集音成分を有するオーディオ信号は、同じ予め定義された空間フォーマットで提供されるが、出力オーディオ信号は、入力オーディオ信号（および集音成分を有するオーディオ信号）に対して適用されるのと同じ空間フォーマットで提供されることができるし、異なる予め定義された空間フォーマットが出力オーディオ信号に対して採用されることもある。出力オーディオ信号の空間オーディオフォーマットは、出力オーディオ信号の再生のために適用される音響再生ハードウェアの特性を考慮して選択される。一般に、入力オーディオ信号は、第１の所定の空間オーディオフォーマットで提供されてもよく、出力オーディオ信号は、第２の所定の空間オーディオフォーマットで提供されることができる。第１および／または第２の空間オーディオフォーマットとして使用するのに適した空間オーディオフォーマットの非限定的な例は、アンビソニックス、予め定められたラウドスピーカ構成に従ったサラウンドラウドスピーカ信号、予め定められたパラメトリック空間オーディオフォーマットである。第１および／または第２の空間オーディオフォーマットとしての空間オーディオ処理装置２５０の枠組みにおけるこれらの空間オーディオフォーマットの使用のより詳細な非限定的な例は、本開示において後に提供される。

空間オーディオ処理装置２５０は、典型的には、入力フレームのシーケンスとしての入力空間オーディオ信号２００を出力フレームのそれぞれのシーケンスに処理するために適用され、それぞれの入力（出力）フレームは、所定のサンプリング周波数での入力（出力）サンプルのそれぞれの時系列として提供される、入力（出力）空間オーディオ信号の各チャネルのためのデジタルオーディオ信号のそれぞれのセグメントを含んでいる。いくつかの実施形態では、空間オーディオ処理装置２５０への入力信号は、例えばＡＡＣ、またはＡＡＣ＋埋め込みメタデータなどの符号化形態であり得る。そのような実施形態では、符号化されたオーディオ入力は、最初に復号され得る。同様にいくつかの実施形態では、空間オーディオ処理装置２５０からの出力は、任意の適切な方法で符号化され得る。

典型的な例では、空間オーディオ処理装置２５０は、各フレームが入力空間オーディオ信号の各チャネルについてそれぞれＬ個のサンプルから構成され、所定のサンプリング周波数において時間的に対応する持続時間に対応するような、固定された所定のフレーム長を採用する。この点に関する例として、固定フレーム長は２０ミリ秒（ｍｓ）であってよく、８、１６、３２または４８ｋＨｚのサンプリング周波数では、チャネルごとにそれぞれＬ＝１６０、Ｌ＝３２０、Ｌ＝６４０およびＬ＝９６０サンプルのフレームに帰結する。フレームは、プロセッサがフィルタバンクを適用するかどうか、またこれらのフィルタバンクがどのように構成されるかによって、重複しない場合もあれば、部分的に重複する場合もある。しかし、これらの値は、非限定的な例として役立ち、これらの例とは異なるフレーム長および／またはサンプリング周波数が、例えば、所望のオーディオ帯域幅、所望のフレーミング遅延および／または利用可能な処理容量に応じて、代わりに採用されることができる。

空間オーディオ処理装置２５０において、フォーカスは、ユーザが選択可能な空間関心領域を指す。フォーカスは、例えば、オーディオシーン全般のある方向、距離、半径、円弧であってもよい。別の例では、関心のある（指向性の）音源が現在配置されているフォーカス領域である。前者のシナリオでは、フォーカスが特定の空間領域で優勢であるため、ユーザが選択可能なフォーカスは、典型的には、一定に留まる領域または頻繁に変化しない領域を示すが、後者のシナリオでは、フォーカスが、オーディオシーンにおけるその位置／形状／サイズを時間と共に変化しても（またはしなくても）よい特定の音源に設定されるので、ユーザが選択したフォーカスはより頻繁に変化するかもしれない。一例では、フォーカスは、例えば、第１の予め定義された基準方向に関して関心のある空間方向を定義する方位角として、および／または第２の予め定義された基準方向に関して関心のある空間方向を定義する仰角として、および／または形状および／または距離および／または半径または形状パラメータとして定義されることができる。

空間オーディオ処理装置２５０の構成要素を参照して前述した機能性は、例えば、図２ｂに描かれたフローチャートによって示される方法２６０に従って提供され得る。方法２６０は、例えば、多数の例を介して本開示で説明した空間オーディオ処理システム２５０を実装するように配置された装置によって提供されることができる。方法２６０は、オーディオシーンを表す入力空間オーディオ信号を、修正されたオーディオシーンを表す出力空間オーディオ信号に処理するための方法として機能する。方法２６０は、ブロック２６１に示されるように、フォーカス領域の標示と、フォーカス強度の標示とを受信することを備える。

方法２６０は、ブロック２６３に示されるように、入力空間オーディオ信号を、前記フォーカス領域から到来する音の相対レベルが前記フォーカス強度に従って修正される修正されたオーディオシーンを表す中間空間オーディオ信号に処理することをさらに備える。

方法２６０は、ブロック２６５に示されるように、出力空間オーディオ信号への中間空間信号の処理を制御する再生制御情報を受信することをさらに備える。再生制御情報は、たとえば、出力空間オーディオ信号のための再生方向（たとえば、聴取方向または視線方向）またはラウドスピーカ構成のうちの少なくとも１つを定義してもよい。

方法２６０は、ブロック２６７に示されるように、前記再生制御情報に従って、前記中間空間オーディオ信号を前記出力空間オーディオ信号に処理することをさらに含む。

方法２６０は、例えば、前述および以下で提供される空間オーディオ処理装置２５０のコンポーネントのそれぞれの機能性に係る例に従って、複数の方法で変化させることができる。

いくつかの実施形態では、空間オーディオ処理装置２５０への入力は、アンビソニック信号である。本装置は、任意の順序のアンビソニック信号を受信するように構成することができる（そして、本方法を適用することができる）。しかし、１次アンビソニック（ＦＯＡ）信号は、空間選択性がかなり広い（具体的には１次指向性）ため、フォーカス形状を細かく制御するには、空間選択性の高い高次アンビソニック（ＨＯＡ）が適していることが例示される。特に以下の実施例では、方法および装置は、３次アンビソニックオーディオ信号を受信するように構成される。

３次アンビソニックオーディオ信号は、合計で１６のビームパターン信号を有する（３Ｄで）。しかし、以下の例では、簡略化のために、フォーカス形状パラメータの実装を示すために、図３に示すように、より「水平」な７つのアンビソニック成分（言い換えれば、オーディオ信号）だけをここで考慮する。例えば図３には、０次球面調和パターン３０１、１次球面調和パターン３０３、２次球面調和パターン３０５、３次球面調和パターン３０７が示されている。さらに図３は、より「水平」である３次の球面調和パターンまでに関するサブセット３０９および３１１を示す。

図５ａに関して、例示的なアンビソニック信号ｘ_ＨＯＡ（ｔ）５００およびフォーカス方向５０２を受信するように構成されたフォーカスプロセッサ５５０が示されている。上述したようにこの例のフォーカスプロセッサ５５０への入力は、サブセット３次アンビソニック信号、例えばサブセット３０９および３１１である。また、以下では、３次アンビソニック信号ｘ_ＨＯＡ（ｔ）５００を、簡単のためにＨＯＡと表記する。水平方位θから到来する、ｔを離散サンプルインデックスとする信号ｘ（ｔ）は、

のようにしてＨＯＡ信号として表現することができる。ここで、ａ（θ）はアンビソニック重みベクトルで方位θのものである（図３）。この式に見られるように、アンビソニックパターンの選択されたサブセットは、水平面内のこれらの非常に単純な数式で定義することができる。

いくつかの実施形態では、フォーカスプロセッサ５５０は、マトリクスプロセッサ５０１から構成される。マトリックスプロセッサ５０１は、いくつかの実施形態において、アンビソニック（ＨＯＡ）信号５００（アンビソニックまたは球面調和パターンに対応）を、７つの等間隔な水平方向におけるビーム信号（ビームパターンに対応）のセットに変換するように構成される。これは、いくつかの実施形態において、変換行列Ｔ（θ_ｆ）によって表され得、θ_ｆは、フォーカス方向５０２パラメータである。

ここで、

であり、

である。
なお、この変換には、第１のパターンをフォーカス方向に合わせ、他のパターンを対称的な間隔で他の方向に合わせるようなフォーカス方向θ_ｆ５０２パラメータに基づく処理が含まれる。

例えば、θ_ｆ＝２０度の場合、変換後の信号ｘ_ｃ（ｔ）５０４に対応するビームパターンと、元のＨＯＡ信号に対応するビームパターンは、図４に示すようになる。図４は、例えば、アンビソニック信号に対応するビームパターン例を示す上段４０１と、２０度にあるフォーカス方向が変換されたビーム信号を示す下段４０３である。そして、変換されたオーディオ信号は、空間ビーム（フォーカスパラメータに基づく）プロセッサ５０３に出力されることができる。

フォーカスプロセッサ５５０は、空間ビーム（フォーカスパラメータに基づく）プロセッサ５０３をさらに含むことができる。空間ビームプロセッサ５０３は、マトリックスプロセッサ５０１から変換されたアンビソニック信号ｘ_ｃ（ｔ）５０４を受け取り、さらに、フォーカス量および幅フォーカスパラメータ５０８を受け取るように構成される。

空間ビームプロセッサ５０３は、次に、空間ビーム信号ｘ_ｃ（ｔ）５０４を修正して、処理されたまたは修正された空間ビーム信号ｘ’_ｃを生成するよう構成される。（ｔ）５０６は、フォーカス量および形状パラメータ５０８に基づく。処理されたまたは修正された空間ビーム信号ｘ’_ｃ（ｔ）５０６は、次に、さらなる行列プロセッサ５０５に出力され得る。空間ビームプロセッサ５０３は、フォーカス形状パラメータの種類に基づいて様々な処理方法を実施するように構成される。この例示的な実施形態では、フォーカスパラメータは、フォーカス方向、フォーカス幅、およびフォーカス量である。フォーカス量は、１が最大フォーカスを示す０．．．１の間の範囲の値ａとして決定することができる。フォーカス幅θ_ｗ（フォーカス方向からフォーカスアークの端までの角度として決定される）もまた、可変または制御可能なパラメータである。空間ビーム信号は、

で生成できる。ここでＩ（θ_ｗ，ａ）はその対角要素がｉ（θ_ｗ，ａ）として決まる対角行列

である。

この例では、ビームｘ_ｃ（ｔ）は、第１のビームがフォーカス方向を向き、第２のビームがフォーカス方向＋ｐを向くように定式化されていることに注目されたい。その結果、行列Ｉ（θ_ｗ，ａ）を適用する場合、フォーカス幅パラメータに応じて、フォーカス方向から遠いビームが減衰されることになる。

フォーカス処理部２０１は、さらにマトリクス処理部５０５を含んで構成される。さらなるマトリクスプロセッサ５０５は、処理されたまたは修正された空間ビーム信号ｘ’_ｃ（ｔ）５０６と、を受信するように構成される。フォーカス方向５０２を逆変換した結果を、フォーカス処理されたＨＯＡ信号として生成する。変換行列Ｔ（θ_ｆ）は反転可能であるため、反転処理は

で表すことができる。ここでｘ’_ＨＯＡはフォーカス処理されたＨＯＡ出力５１０である。

図６に関しては、フォーカスパラメータが最大フォーカス量ａ＝１、フォーカス方向がθ_ｆ＝２０度、フォーカス幅θ_ｗ＝４５度である例を示している。上段６０１は、フォーカス処理された変換領域信号ｘ’_ｃとフォーカス効果領域に対応するビームパターンを示している。下段６０３は出力信号ｘ’_ＨＯＡ（ｔ）に対応するビームパターンを示している。図７に関しては、フォーカスパラメータが最大フォーカス量ａ＝１であり、フォーカス方向パラメータがθ_ｆ＝－９０度、θ_ｗ＝９０度である例を示している。上段７０１は、フォーカス処理された変換領域信号ｘ’_ｃに対応するビームパターンを示している。下段７０３は、出力信号ｘ’_ＨＯＡ（ｔ）に対応するビームパターンを示す。

上記の例では、ＨＯＡ処理は、より「水平」なビームパターン信号のセットにおいてのみ考慮されていることが示された。これらの演算は、３Ｄのビームパターンのセットを用いて、３Ｄに拡張できることが理解される。

図５ｂに関して、図５ａに示すようなＨＯＡフォーカスプロセッサのオペレーション５６０の流れ図が示されている。

最初のオペレーションは、ステップ５６１によって図５ｂに示すようなＨＯＡオーディオ信号（および方向、幅、量または他の制御情報のようなフォーカスパラメータ）を受信することである。

次のオペレーションは、図５ｂにステップ５６３で示すように、変換されたＨＯＡオーディオ信号をビーム信号に生成することである。

ＨＯＡオーディオ信号をビーム信号に変換した後、次のオペレーションは、ステップ５６５によって図５ｂに示されるように、空間ビーム処理の１つである。

次に、処理されたビームオーディオ信号は、ステップ５６７によって図５ｂに示されるように、ＨＯＡフォーマットに逆変換される。

次に、処理されたＨＯＡオーディオ信号は、ステップ５６９によって図５ｂに示されるように出力される。

図８ａに関して、入力としてパラメトリック空間オーディオ信号を受信するように構成されたフォーカスプロセッサが示されている。パラメトリック空間オーディオ信号は、オーディオ信号と、周波数帯域における方向（複数可）および直接－全エネルギー比（複数可）などの空間メタデータとからなる。パラメトリック空間オーディオ信号の構造と生成は既知であり、その生成はマイクロフォンアレイ（例：携帯電話，ＶＲカメラ）から説明されている。パラメトリック空間オーディオ信号は、さらに、ラウドスピーカ信号およびアンビソニック信号からも生成することができる。いくつかの実施形態におけるパラメトリック空間オーディオ信号は、ＩＶＡＳ（ＩｍｍｅｒｓｉｖｅＶｏｉｃｅａｎｄＡｕｄｉｏＳｅｒｖｉｃｅｓ）オーディオストリームから生成されてもよく、これは、空間メタデータおよびオーディオチャネルの形態にデコードおよび多重化解除され得る。このようなパラメトリック空間オーディオストリームのオーディオチャンネルの典型的な数は、２つのオーディオチャンネルのオーディオ信号であるが、いくつかの実施形態では、オーディオチャンネルの数は任意の数であることができる。

これらの例では、パラメトリック情報は、深度／距離情報からなり、これは、６自由度（６ＤＯＦ）再生で実装され得る。６ＤＯＦでは、距離のメタデータは、ユーザの動きに応じて音のエネルギーと方向がどのように変化すべきかを決定するために（他のメタデータと一緒に）使用される。

したがって、この例では、各空間メタデータの方向パラメータは、直接／全体エネルギー比と距離パラメータの両方に関連付けられている。パラメトリック空間オーディオキャプチャのコンテキストにおける距離パラメータの推定は、ＧＢ特許出願ＧＢ１７１００９３．４およびＧＢ１７１００８５．０などの以前の出願で詳述されており、明確性の理由から、これ以上検討されない。

パラメトリック（この場合、６ＤＯＦ対応）空間オーディオ８００を受信するように構成されたフォーカスプロセッサ８５０は、フォーカスパラメータ（これらの例では、フォーカス方向、量、距離、および半径である）を使用して、フォーカス効果を有効にするためにパラメトリック空間オーディオ信号の直接成分および周囲成分をどの程度減衰またはエンファシスすべきか判断するように構成される。

以下の例では、方法（および式）は経時的な変化なしに表現されているが、すべてのパラメータは経時的に変化し得ることを理解されたい。

いくつかの実施形態では、フォーカスプロセッサは、フォーカスパラメータ８０８と、さらに、方向８０２、距離８２２、周波数帯の直接－全エネルギー比８０４からなる空間メタデータを受け取るように構成される比率修正およびスペクトル調整係数決定器８０１から構成される。

比率修正器およびスペクトル調整係数決定器は、３Ｄ空間における球体としてフォーカス形状を実装するように構成される。まず、フォーカスの方向と距離を直交座標系（３ｘ１ｙ－ｚ－ｘベクトルｆ）に変換することにより、

のようになる。

同様に、各周波数帯ｋにおいて、空間メタデータの方向と距離は、

である。

空間メタデータの距離とフォーカス距離のパラメータの単位は同じであるべきである（例えば、両方ともメートル、または他のスケールで）。ｆとｍ（ｋ）の相互距離値ｄ（ｋ）は、簡単に次のように定式化することができる。

ここではベクトルの長さ（ｆ－ｍ（ｋ））を意味する。

そして、この相互距離値ｄ（ｋ）は、０．．１のフォーカス量パラメータａ、フォーカス半径パラメータｄｒ（ｄ（ｋ）と同じ単位）と共に利得関数に利用される。フォーカスを行う場合、利得式の例は、

である。ここでｃはフォーカスに対する利得定数、例えば４という値である。

実際には、フォーカス利得関数が、フォーカス領域での高い値から非フォーカス領域での低い値へと滑らかに遷移するように、上記の関数を平滑化することが望ましい場合がある。

次に、パラメトリック空間オーディオ信号の新しい直接部分値Ｄ（ｋ）は、

と定式化することができ、ｒ（ｋ）はバンドｋにおける直接／全エネルギー比の値である。新たなアンビエント分値Ａ（ｋ）は、

として定式化することができる。そして、スペクトル調整処理部８０３に出力８１２されるスペクトル補正係数ｓ（ｋ）は、音エネルギーの全体的な修正に基づいて、言い換えれば、

のように定型化される。そして、空間メタデータのｒ（ｋ）を置き換えるために、新しい修正された直接－全体エネルギー比パラメータｒ’（ｋ）が、

として定式化される。

数値的に未確定のＤ（ｋ）＝Ａ（ｋ）＝０の場合、ｒ’（ｋ）も０に設定することができる。

空間メタデータの方向および距離パラメータは、いくつかの実施形態において、メタデータ調整およびスペクトル調整係数決定器８０１および修正および未修正メタデータ出力８１０によって修正されないことがある。

空間プロセッサ８５０は、スペクトル調整プロセッサ８０３を含んでいてもよい。スペクトル調整プロセッサ８０３は、オーディオ信号８０６およびスペクトル調整係数８１２を受信するように構成されることができる。オーディオ信号は、いくつかの実施形態において、時間－周波数表現であることができ、または代替的に、スペクトル調整処理のために最初に時間－周波数領域に変換される。出力８１４もまた、時間－周波数領域であり得るか、または出力の前に時間領域に逆変換され得る。入力と出力のドメインは、実装に依存する。

スペクトル調整処理部８０３は、各帯域ｋについて、帯域ｋ内の全チャネルの（時間周波数変換の）周波数ビンにスペクトル調整係数ｓ（ｋ）を乗じるように構成されることができる。つまり、スペクトル調整を行う。乗算（すなわち、スペクトル補正）は、処理アーティファクトを回避するために、時間的に平滑化されることができる。

言い換えれば、プロセッサは、信号のスペクトルおよび空間メタデータは、手順が、フォーカスパラメータ（この場合、フォーカス方向、量、距離、半径）に従って修正されたパラメトリック空間オーディオ信号を修正するように構成される。

図８ｂに関して、図８ａに示すようなパラメトリック空間オーディオ入力プロセッサのオペレーションのフロー図８６０が示されている。

最初のオペレーションは、ステップ８６１によって図８ｂに示すようなパラメトリック空間オーディオ信号（およびフォーカスパラメータまたは他の制御情報）を受信することである。

次のオペレーションは、ステップ８６３によって図８ｂに示されるように、パラメトリックメタデータの修正とスペクトル調整係数の生成である。

次のオペレーションは、図８ｂにステップ８６５で示すように、オーディオ信号に対してスペクトル調整を行うことである。

次に、スペクトル調整されたオーディオ信号と修正された（および修正されていない）メタデータは、次にステップ８６７によって図８ｂに示されるように出力されることができる。

図９ａに関して、入力９００としてマルチチャンネルまたはオブジェクトオーディオ信号を受信するように構成されるフォーカスプロセッサ９５０が示されている。このような実施例におけるフォーカスプロセッサは、フォーカス利得決定器９０１から構成されることができる。フォーカス利得決定器９０１は、フォーカスパラメータ９０８およびチャネル／オブジェクト位置／方向情報を受信するように構成され、これらは静的であっても時間変動的であってもよい。フォーカス利得決定器９０１は、入力信号９００からのフォーカスパラメータ９０８およびチャネル／オブジェクト位置／方向情報９０２に基づいて、各チャネルのフォーカス利得９１２として出力される直接利得ｆ（ｋ）パラメータを生成するよう構成されている。ある実施形態では、チャンネル信号の方向がシグナリングされ、ある実施形態では、それらが仮定される。例えば、６つのチャネルがあるとき、方向は、５．１オーディオチャネル方向であると仮定されることができる。いくつかの実施形態では、チャネル数の関数としてチャネル方向を決定するために使用されるルックアップテーブルが存在してもよい。

方向および距離（すなわち、位置）を有するオーディオオブジェクトに対して、フォーカス利得決定器９０１は、空間メタデータおよびフォーカスパラメータに基づいて直接利得ｆ（ｋ）９１２を決定するために、パラメトリックオーディオ処理のコンテキストで表されるのと同じ実装処理を利用し得る。これらの実施形態では、フィルタバンクは存在しない。すなわち、周波数帯域ｋは１つだけである。

また、フォーカスプロセッサは、さらに、フォーカス利得プロセッサ（各チャンネル用）９０３を備えてもよい。フォーカス利得プロセッサ９０３は、各オーディオチャネルおよびオーディオ信号９０６のためのフォーカス利得ｆ（ｋ）９１２を受信するように構成される。その後、フォーカス利得９１２は、対応するオーディオチャネル信号９０６に適用され得る（いくつかの実施形態では、さらに、時間的に平滑化され得る）。フォーカス利得プロセッサ９０３からの出力は、フォーカス処理されたオーディオチャネルオーディオ信号９１４であってもよい。

これらの例では、チャネル方向／位置情報９０２は、変更されず、また、チャネル方向／位置情報出力９１０として提供される。

いくつかの実施形態では、入力オーディオチャンネルが距離情報を持たない場合（例えば、入力は方向のみで距離を持たないラウドスピーカまたは物体音）、そのようなオーディオチャンネルを処理する１つのオプションは、そのような信号の固定デフォルト距離を決定し、同じ式を適用してｆ（ｋ）を決定することである。

いくつかの実施形態では、そのようなオーディオチャネルに対するフォーカス利得ｆ（ｋ）９１２を決定することは、フォーカス方向とオーディオチャネルの方向との間の角度差に基づくことができる。いくつかの実施形態では、これはまず、フォーカス幅θ＿ｗを決定してもよい。例えば図１０に示すように、フォーカス幅θ＿ｗ１００５は、フォーカス距離１００１とフォーカス半径１００３を使用して三角法に基づいて決定されてもよく、フォーカス幅は、フォーカス距離１００１によって形成される斜辺とフォーカス半径１００３によって形成される反対側を有する直角三角形のなす角度によって生成される。フォーカス幅は、単純に、

で求めることができる。次に、フォーカス方向とオーディオチャンネルの方向との間の角度θ_ａを（各オーディオチャンネルについて個別に）決定する。次に、上述したのと同様の式を使用して、ｄ_ｒをθ_ｗに置き換え、ｄ（ｋ）をθ_ａに置き換え、ｆ（ｋ）を決定することができる（距離情報なしでオーディオチャネルに対するフォーカス利得を決定する場合）。フォーカス半径がフォーカス距離より大きい場合、いくつかの実施形態では、上記のａｓｉｎ関数が定義されず、フォーカス幅θ_ｗに大きな値（例えば、π）が使用され得る。

図９ｂに関して、図９ａに示したマルチチャンネル／オブジェクトオーディオ入力処理装置のオペレーションのフロー図９６０を示す。

最初のオペレーションは、ステップ９６１によって図９ｂに示すように、マルチチャネル／オブジェクトオーディオ信号（およびフォーカスパラメータまたは他の制御情報、および方向／距離などのチャネル情報）を受信することである。

次のオペレーションは、ステップ９６３によって図９ｂに示すように、フォーカス利得係数を生成することである。次のオペレーションは、ステップ９６５によって図９ｂに示すように、各チャンネルオーディオ信号に対してフォーカス利得を適用する。次に、ステップ９６７によって図９ｂに示されるように、処理オーディオ信号と修正されていないチャネル方向（および距離）が次に出力され得る。

いくつかの実施形態では、フォーカス形状は、他のパラメータおよびパラメータの他の組み合わせも使用して定義することができる。これらの場合、フォーカスプロセッサは、これらのパラメータを使用するように、上記の例から変更することができる。

図１１ａに関して、アンビソニックオーディオ入力に基づく再生プロセッサ１１５０の例（例えば、図５ａに示すような例のフォーカスプロセッサからの出力を受け取るように構成されることができる）が示されている。これらの例において再生プロセッサは、アンビソニック回転マトリクスプロセッサ１１０１から構成されることができる。アンビソニック回転マトリクスプロセッサ１１０１は、フォーカス処理１１００およびビュー方向１１０２を有するアンビソニック信号を受信するように構成される。アンビソニック回転マトリクスプロセッサ１１０１は、ビュー方向パラメータ１１０２に基づいて回転マトリクスを生成するように構成されている。これは、いくつかの実施形態において、ヘッドトラッキングされたアンビソニックＡイノーラル化において適用されるような任意の適切な方法を使用してもよい（またはより一般的には、球面高調波のこのような回転は、オーディオ以外を含む多くの分野で使用される）。次に、この回転行列をアンビソニックオーディオ信号に適用する。その結果、フォーカス１１０４が付加された回転したアンビソニック信号が得られ、アンビソニックからバイノーラルフィルタｆ１１０３に出力される。アンビソニックからバイノーラルフィルタ１１０３は、フォーカスが付加された回転したアンビソニック信号１１０４を受信するように構成される。

アンビソニックからバイノーラルフィルタ１１０３は、２バイノーラル信号１１０６を生成するためにＫアンビソニック信号に適用される有限インパルス応答（ＦＩＲ）フィルタの予め形成された２ｘＫ行列で構成されることができる。ＦＩＲフィルタは、頭部関連インパルス応答（ＨＲＩＲ）のセットに関して最小二乗最適化法によって生成されたものであってもよい。このような設計手順の例としては、ＨＲＩＲデータセットを（たとえばＦＦＴによって）周波数ビンに変換してＨＲＴＦデータセットを得、各周波数ビンについて、ＨＲＴＦデータセットのデータ点における利用可能なＨＲＴＦデータセットを最小二乗法で近似する複素値の処理行列を決定することである。すべての周波数ビンについて複素数値の行列がそのように決定されるとき、その結果は、時間領域ＦＩＲフィルタとして（例えば逆ＦＦＴによって）逆変換され得る。また、ＦＩＲフィルタは、例えば、Ｈａｎｎウィンドウを用いることにより、ウィンドウ化されることができる。

アンビソニック信号をラウドスピーカ出力にレンダリングするために使用することができる多くの既知の方法がある。一例として、アンビソニック信号をターゲットラウドスピーカ構成にリニアにデコードすることができる。これは、アンビソニック信号の次数が十分に高い場合、例えば、少なくとも３次、好ましくは４次である場合に適用することができる。このような線形復号化の具体例では、アンビソニック信号（アンビソニックビームパターンに対応する）に適用されると、最小二乗法でターゲットラウドスピーカ構成に適したＶＢＡＰ（ｖｅｃｔｏｒ－ｂａｓｅａｍｐｌｉｔｕｄｅｐａｎｎｉｎｇ）ビームパターンを近似するビームパターンに対応するラウドスピーカ信号が生成されるアンビソニック復号行列が設計されることができる。このような設計されたアンビソニックデコーディングマトリックスでアンビソニック信号を処理することにより、ラウドスピーカ音出力を生成するように構成されることができる。このような実施形態では、再生プロセッサは、ラウドスピーカ構成に関する情報を受信するように構成される。

図１１ｂに関して、図１１ａに示すアンビソニック入力再生処理装置のオペレーションのフロー図１１６０を示す。

最初のオペレーションは、ステップ１１６１によって図１１ｂに示すように、フォーカス処理されたアンビソニックオーディオ信号（およびビュー方向）を受信することである。

次のオペレーションは、ステップ１１６３によって図１１ｂに示されるように、ビュー方向に基づいて回転マトリクスを生成するものである。

次のオペレーションは、ステップ１１６５によって図１１ｂに示すように、アンビソニックオーディオ信号に回転マトリックスを適用して、フォーカス処理された回転アンビソニックオーディオ信号を生成するものである。

次のオペレーションは、ステップ１１６７によって図１１ｂに示すように、アンビソニックオーディオ信号を適切なオーディオ出力フォーマット、例えばバイノーラルフォーマット（またはマルチチャンネルオーディオフォーマット）に変換することである。

そして、次に、ステップ１１６９によって図１１ｂに示すように出力オーディオ形式を出力する。

図１２ａに関して、パラメトリック空間オーディオ入力に基づく再生プロセッサ１２５０の例（例えば、図８ａに示すような例のフォーカスプロセッサからの出力を受信するように構成されることができる）が示されている。

いくつかの実施形態では、再生プロセッサは、オーディオチャンネル１２００のオーディオ信号を受信し、オーディオチャンネルを周波数帯域に変換するように構成されたフィルタバンク１２０１を備える（入力が既に適切な時間－周波数ドメインである場合を除く）。適切なフィルタバンクの例には、短時間フーリエ変換（ＳＴＦＴ）および複素直交ミラーフィルタ（ＱＭＦ）バンクが含まれる。時間－周波数オーディオ信号１２０２は、パラメトリックバイノーラルシンセサイザ１２０３に出力することができる。

いくつかの実施形態では、再生プロセッサは、時間周波数オーディオ信号１２０２と、修正された（および修正されていない）メタデータ１２０４と、さらにビュー方向１２０６（または適切な再生関連制御または追跡情報）を受信するように構成されたパラメトリックバイノーラルシンセサイザ１２０３から構成される。６ＤＯＦの文脈では、ユーザ位置は、ビュー方向パラメータと共に提供されることができる。

パラメトリックバイノーラル合成器１２０３は、パラメトリックバイノーラル化ブロックの前に信号およびメタデータに対してフォーカス修正が既に行われているので、バイノーラルオーディオ信号（周波数帯域）１２０８を生成するように構成された任意の適切な既知のパラメトリック空間合成方法を実施するように構成されることができる。バイノーラル化された時間－周波数オーディオ信号１２０８は、次に、逆フィルタバンク１２０５に渡すことができる。実施形態は、再生プロセッサが、バイノーラル化された時間周波数オーディオ信号１２０８を受け取り、適用された順方向フィルタバンクの逆を生成するように構成された逆フィルタバンク１２０５を備え、こうしてヘッドフォン（図１２ａに示されていない）による再生に適したフォーカス特性を有する時間領域バイノーラル化オーディオ信号１２１０を生成することをさらに特徴としてもよい。

いくつかの実施形態では、バイノーラルオーディオ信号出力は、適切なラウドスピーカ合成方法を用いて、パラメトリック空間オーディオ信号からラウドスピーカチャンネルオーディオ信号出力フォーマットで置き換えられる。任意の適切なアプローチが使用されてもよく、例えば、ビュー方向パラメータがラウドスピーカの位置の情報に置き換えられ、適切な既知の方法に基づいて、バイノーラルプロセッサがラウドスピーカプロセッサに置き換えられるものであってもよい。

図１２ｂに関して、図１２ａに示すようなパラメトリック空間オーディオ入力再生プロセッサのオペレーションのフロー図１２６０が示されている。

最初のオペレーションは、ステップ１２６１によって図１２ｂに示すようなフォーカス処理されたパラメトリック空間オーディオ信号（およびビュー方向または他の再生関連制御または追跡情報）を受信することである。

次のオペレーションは、図１２ｂにステップ１２６３で示すように、オーディオ信号を時間周波数変換するものである。次のオペレーションは、ステップ１２６５によって図１２ｂに示すように、時間周波数変換されたオーディオ信号、メタデータおよび視聴方向（または他の情報）に基づいて、パラメトリックバイノーラル（またはラウドスピーカチャネル形式）プロセッサを適用するものである。

そして、次のオペレーションは、ステップ１２６７によって図１２ｂに示すように、生成されたバイノーラルまたはラウドスピーカチャネルオーディオ信号を逆変換することである。

次に、ステップ１２６９によって図１２ｂに示すように、出力オーディオ形式を出力する。オーディオ信号がマルチチャンネルオーディオの形式であり、図９ａのフォーカスプロセッサ９５０が適用される場合の再生プロセッサのラウドスピーカ出力を考えると、いくつかの実施形態では、再生プロセッサは、出力ラウドスピーカ構成が入力信号の形式と同じであるパススルーを構成してもよい。

出力ラウドスピーカ構成が入力ラウドスピーカ構成と異なるいくつかの実施形態では、再生プロセッサは、ベクトルベース振幅パンニング（ＶＢＡＰ）プロセッサで構成されることができる。フォーカス処理された各オーディオチャンネルは、その後、既知の振幅パンニング技術であるＶＢＡＰを用いて処理され、ターゲットラウドスピーカ構成を使用して空間的に再現され得る。このようにして、出力オーディオ信号は、出力ラウドスピーカ設定に適合される。

いくつかの実施形態では、第１のラウドスピーカ構成から第２のラウドスピーカ構成への変換は、任意の適切な振幅パンニング技法を用いて実施され得る。例えば、振幅パンニング技法は、第１のラウドスピーカ構成のＭ個のチャネルから第２のラウドスピーカ構成のＮ個のチャネルへの変換を定義する振幅パンニング利得のＮ×Ｍ行列を導出し、次にその行列を用いて第１のラウドスピーカ構成に従ってマルチチャネル・ラウドスピーカ信号として提供される中間空間オーディオ信号のチャネルを乗算することからなってもよい。中間空間オーディオ信号は、図２ａに示すように、フォーカス音成分２０４を有するオーディオ信号と同様であると理解することができる。非限定的な例として、ＶＢＡＰ振幅パンニング利得の導出は、Ｐｕｌｋｋｉ，Ｖｉｌｌｅ．「Ｖｉｒｔｕａｌｓｏｕｎｄｓｏｕｒｃｅｐｏｓｉｔｉｏｎｉｎｇｕｓｉｎｇｖｅｃｔｏｒｂａｓｅａｍｐｌｉｔｕｄｅｐａｎｎｉｎｇ」，Ｊｏｕｒｎａｌｏｆｔｈｅａｕｄｉｏｅｎｇｉｎｅｅｒｉｎｇｓｏｃｉｅｔｙ４５，ｎｏ．６（１９９７），ｐｐ．４５６－４６６に記載されている。

バイノーラル出力のために、マルチチャンネルラウドスピーカ信号フォーマット（および／またはオブジェクト）の任意の適切なバイノーラル化を実施することができる。例えば、典型的なバイノーラル化は、オーディオチャンネルを頭部伝達関数（ＨＲＴＦ）で処理し、リスニングルームの聴覚的印象を生成するために合成ルーム残響を加えることから構成される場合があります。オーディオオブジェクト音の距離＋方向（すなわち、位置）情報は、例えばＧＢ特許出願ＧＢ１７１００８５．０に概説された原理を採用することによって、ユーザの動きを伴う６自由度再生に利用することができる。

実施に適した装置例が、適切なソフトウェア１４０３を実行する携帯電話またはモバイルデバイス１４０１の形態で図１３に示されている。ビデオは、例えば、携帯電話１４０１をＤａｙｄｒｅａｍビュータイプのデバイスに取り付けることによって再生され得る（ただし、明確さのために、ビデオ処理についてはここでは説明しない）。

オーディオビットストリーム取得器１４２３は、例えばストレージから受信／取得される、オーディオビットストリーム１４２４を取得するように構成される。いくつかの実施形態では、モバイルデバイスは、圧縮されたオーディオを受信し、それをデコードするように構成されたデコーダ１４２５を具備する。デコーダの例は、ＡＡＣデコードの場合、ＡＡＣデコーダである。その結果、デコードされた（例えば、図５ａおよび１１ａに示すような実施例が実装されるアンビソニック）オーディオ信号１４２６は、フォーカスプロセッサ１４２７に転送され得る。

携帯電話１４０１は、コントローラデータ受信機１４１１で外部コントローラから（例えばＢｌｕｅｔｏｏｔｈ（登録商標）を介して）コントローラデータ１４００を受信し、そのデータを（コントローラデータから）フォーカスパラメータ決定器１４２１に渡す。フォーカスパラメータ（コントローラデータから）決定器１４２１は、例えば、コントローラデバイスの向きおよび／またはボタンイベントに基づいて、フォーカスパラメータを決定する。フォーカスパラメータは、提案されたフォーカスパラメータ（例えば、フォーカス方向、フォーカス量、フォーカス高さ、およびフォーカス幅）の任意の種類の組み合わせで構成され得る。フォーカスパラメータ１４２２は、フォーカスプロセッサ１４２７に転送される。

アンビソニックオーディオ信号とフォーカスパラメータに基づいて、フォーカスプロセッサ１４２７は、所望のフォーカス特性を有する修正アンビソニック信号１４２８を作成するように構成される。これらの修正されたアンビソニック信号１４２８は、アンビソニックからバイノーラルプロセッサ１４２９に転送される。アンビソニックからバイノーラルプロセッサ１４２９はまた、携帯電話１４０１の方位追跡器１４１３から頭の方位情報１４０４を受信するように構成されている。修正されたアンビソニック信号１４２８およびヘッド方向情報１４０４に基づいて、アンビソニックからバイノーラルプロセッサ１４２９は、携帯電話から出力され、例えばヘッドフォンを用いて再生され得るヘッドトラッキングされたバイノーラル信号１４３０を作成するように構成されている。

図１４は、フォーカス方向、フォーカス量、およびフォーカス幅などの適切なフォーカスパラメータを制御または生成するように構成され得る例示的な装置（またはフォーカスパラメータ制御装置）１５５０を示す。装置のユーザは、コントローラを所望の方向１５０９に向け、フォーカス方向選択ボタン１５０５を押すことによって、フォーカス方向を選択するように構成され得る。コントローラは、方位追跡器１５０１を有し、方位情報は、（例えば、図１３に示すように、フォーカスパラメータ（コントローラデータから）決定器１４２１において）フォーカス方向を決定するために使用され得る。

いくつかの実施形態におけるフォーカス方向は、フォーカス方向を選択しながら、視覚ディスプレイで視覚化されることができる。いくつかの実施形態では、フォーカス量は、フォーカス量ボタン（図１４に＋および－として示される）１５０７を用いて制御され得る。押すたびにフォーカス量を例えば１０％ポイントずつ増減させることができる。フォーカス幅は、フォーカス幅ボタン（図１４では＋と－で示す）１５０３を使用して制御することができる。各押しは、１０度のような固定量によってフォーカス幅を増加／減少させるように構成されることができる。

いくつかの実施形態では、フォーカス形状は、コントローラ（例えば、図１４に描かれたもの）を用いて所望の形状を描くことによって決定することができる。ユーザは、フォーカス方向選択ボタンを長押しすることで描画オペレーションを開始し、コントローラで所望の形状を描画し、最後に押下を停止することで形状を承認することができる。描画された形状を視覚的に表示しながら描画してもよい。描画された形状は、フォーカス方向、フォーカス高さ、フォーカス幅のパラメータに変換されることができる。フォーカス量は、先の例と同様に、「フォーカス量」ボタンで選択してもよい。

いくつかの実施形態では、図１４に示すようなフォーカスコントローラは、「フォーカス幅」コントロールが「フォーカス半径」コントロールに置き換えられ、複雑で内容に適応したフォーカス形状の制御を可能にするように変更される。そのような実施形態では、３６０映像がパノラマであるだけでなく、深度情報を含む（すなわち、６自由度でのユーザの動きに反応し得る実質的に３Ｄ映像である）高度な仮想現実再生システムの一部として実装され得る。例えば、映像コンテンツは、コンピュータグラフィックスによって生成されたもの、あるいは、視覚的な奥行きを検出できるため、コンピュータグラフィックスと同様に６ＤＯＦを可能にするＶＲビデオキャプチャシステムによって生成されたものが考えられる。

例えば、あるシーンでは、２つの興味対象（例えば、話し手）が存在する。ユーザは、この２つの音源に対して「フォーカス方向選択」をクリックすると、視覚ディスプレイは、これらの音源（聴覚的な音源だけでなく、ある方向と距離の視覚的な音源）がオーディオフォーカスに選択されたことをユーザに対して示す。次に、ユーザは、フォーカス量とフォーカス半径のパラメータを選択し、フォーカス半径は、関心のあるソースからの聴覚イベントが、決定されたフォーカス形状の内にどの程度含まれるようになるかを示す。制御調整中、フォーカス半径は、関心のある視覚的ソースの周りの視覚的球体として示され得る。

視野はユーザの動きに反応するかもしれないが、ソースがシーン内で移動することもあり、ソースの位置は通常、視覚的に追跡される。したがって、フォーカス形状は、この場合、３次元空間内の２つの球体で表されることがあり、次に、それらの球体を移動することによって、その全体形状を適応的に変化させることができる。つまり、奥行き方向のフォーカスもある複雑なフォーカス形状が得られる。そして、空間オーディオの形式に応じて、そのフォーカス形状を（空間オーディオが信頼できる距離情報を持っている条件で）正確に再現するか、あるいは、例えば、上記で例示したように、他の方法で近似することができる。

いくつかの実施形態では、例えば、フォーカスされた信号の所望の周波数範囲またはスペクトル特性を決定することによって、フォーカス処理をさらに指定することが望ましい場合がある。特に、例えば低周波コンテンツ（例えば２００Ｈｚ以下）、高周波コンテンツ（例えば８ｋＨｚ以上）を減衰させ、オーディオに関連する特に有用な周波数帯を残すことによって、オーディオ周波数帯でフォーカスされたオーディオスペクトルをエンファシスし、明瞭度を向上させることが有用である場合がある。

フォーカス処理された信号は、自動利得制御またはエンハンスメント技術（例えば、帯域幅拡張、ノイズ抑制）など、任意の既知のオーディオ処理技術でさらに処理されることができることが理解される。

いくつかのさらなる実施形態では、フォーカスパラメータ（方向、量、および少なくとも１つのフォーカス形状パラメータを含む）は、コンテンツクリエータによって生成され、パラメータは空間オーディオ信号と一緒に送信される。例えば、シーンは、ステージ付近のアンプラグド音楽コンサートのＶＲビデオ／オーディオ記録であってもよい。コンテンツ制作者は、典型的なリモートリスナーが、ステージに向かって広がるフォーカスアークと、室内音響効果のために側面にも広がるフォーカスアークを決定したいが、少なくともある程度は観客からの直接音（ＶＲカメラのメイン方向の後ろ）を除去したいと想定することができる。そこで、ストリームにフォーカスパラメータのトラックを追加し、デフォルトのレンダリングモードとして設定できるようにした。しかし、それでも観客の音はストリーム中に存在するため、フォーカス処理を破棄して、観客の音を含むフルサウンドシーンを再生できるようにした方が良いというユーザもいる。

つまり、フォーカスの方向や形状をユーザが選択するのではなく、あらかじめ設定されたダイナミックなフォーカスパラメータを選択することができる。プリセットは、例えば、曲の終わりごとにフォーカスをオフにして、リスナーに拍手を再生するように、コンテンツ制作者が番組にうまく沿うように微調整している場合もある。コンテンツ制作者は、フォーカスのパラメータとして、期待される好適プロファイルをいくつか生成することができる。このアプローチは、１つの空間オーディオ信号だけを伝えればよいので有益であるが、異なる好適プロファイルを追加することも可能である。フォーカスが有効になっていないレガシープレーヤは、フォーカスの手順なしにアンビソニック信号をデコードすることができる。

いくつかのさらなる実施形態では、フォーカス形状は、複数の視聴方向を有する映像の視覚的ズームとともに制御される。ビジュアルズームは、ユーザがパノラマまたは３６０または３Ｄビデオで仮想双眼鏡のセットを制御するように概念化することができる。このようなユースケースでは、ビジュアルズーム機能を有効にすると（例えば、少なくとも１．５倍ズームが設定される）、空間オーディオ信号のオーディオフォーカスも有効にすることができる。このとき、ユーザは明らかにその方向に興味を持っているので、フォーカス量を高い値、例えば８０％に設定し、フォーカス幅を仮想双眼鏡の視覚的視野の円弧に対応するように設定することができる。つまり、視覚的なズームを大きくすると、フォーカス幅は小さくなる。フォーカスが８０％に設定されたので、ユーザは、適切な方向で残りの空間音をある程度聞くことができる。そうすることで、ユーザは興味深い新しいコンテンツの発生を聞き、視覚ズームをオフにして新しい関心のある方向へ見ることを知ることができる。また、ズーム処理は、そのような処理を可能にするオーディオコーデックの文脈で使用されることができる。そのようなコーデックの例としては、例えば、ＭＰＥＧ－Ｉが考えられる。

上述したような実施形態におけるユーザは、本発明を用いて、汎用的にフォーカス形状を制御することができる。

高次アンビソニックス（ＨＯＡ）信号について説明した実施形態に基づく処理出力の一例を図１５に示す。この図は、３次ＨＯＡ信号のスペクトログラムとして、０°にトーカー、－９０°に正弦波、１１０°にホワイト・ノイズを配置し、８チャンネルのスピーカ復号出力を示したものである。この図では、話し手の方にフォーカスを絞ると、正弦波とホワイト・ノイズの相対的なエネルギーが減少し、話し手と正弦波の両方を含む広いフォーカスでは、ホワイト・ノイズの相対的なエネルギーだけが著しく減少することが示されている。

図１６に関して、解析装置または合成装置として使用することができる電子装置の一例を示す。デバイスは、任意の適切な電子機器または装置であってよい。例えば、いくつかの実施形態では、デバイス１７００は、モバイルデバイス、ユーザ機器、タブレットコンピュータ、コンピュータ、オーディオ再生装置などである。

いくつかの実施形態では、装置１７００は、少なくとも１つのプロセッサまたは中央処理装置１７０７を備える。プロセッサ１７０７は、本明細書に記載されるような方法などの様々なプログラムコードを実行するように構成され得る。

いくつかの実施形態において、装置１７００は、メモリ１７１１を備える。いくつかの実施形態では、少なくとも１つのプロセッサ１７０７は、メモリ１７１１に結合される。メモリ１７１１は、任意の適切な記憶手段であり得る。いくつかの実施形態では、メモリ１７１１は、プロセッサ１７０７で実行可能なプログラムコードを格納するためのプログラムコード部を構成する。さらにいくつかの実施形態では、メモリ１７１１は、データ、例えば本明細書に記載されるような実施形態に従って処理されたまたは処理されるべきデータを記憶するための記憶データセクションをさらに備えることができる。プログラムコード部内に格納された実装プログラムコードおよび格納データ部内に格納されたデータは、メモリ－プロセッサ結合を介して必要なときにいつでもプロセッサ１７０７によって取り出されることができる。

いくつかの実施形態では、装置１７００は、ユーザ・インターフェース１７０５を備える。ユーザ・インターフェース１７０５は、いくつかの実施形態において、プロセッサ１７０７に結合され得る。いくつかの実施形態では、プロセッサ１７０７は、ユーザ・インターフェース１７０５のオペレーションを制御し、ユーザ・インターフェース１７０５から入力を受信することができる。いくつかの実施形態では、ユーザ・インターフェース１７０５は、例えばキーパッドを介して、ユーザがデバイス１７００にコマンドを入力することを可能にすることができる。いくつかの実施形態では、ユーザ・インターフェース１７０５は、ユーザがデバイス１７００から情報を取得することを可能にすることができる。例えば、ユーザ・インターフェース１７０５は、デバイス１７００からの情報をユーザに表示するように構成されたディスプレイを含んでいてもよい。ユーザ・インターフェース１７０５は、いくつかの実施形態において、デバイス１７００に情報を入力することを可能にし、さらにデバイス１７００のユーザに情報を表示することの両方が可能なタッチスクリーンまたはタッチインターフェースから構成され得る。

いくつかの実施形態では、装置１７００は、入出力ポート１７０９を含んでいる。いくつかの実施形態における入出力ポート１７０９は、トランシーバを含んで構成される。そのような実施形態におけるトランシーバは、プロセッサ１７０７に結合され、例えば無線通信ネットワークを介して他の装置または電子デバイスとの通信を可能にするように構成され得る。トランシーバまたは任意の適切なトランシーバまたは送信機および／または受信機手段は、いくつかの実施形態において、有線または有線結合を介して他の電子デバイスまたは装置と通信するように構成され得る。

トランシーバは、任意の適切な既知の通信プロトコルによって、さらなる装置と通信することができる。例えばいくつかの実施形態では、トランシーバは、適切なユニバーサル移動通信システム（ＵＭＴＳ）プロトコル、例えばＩＥＥＥ８０２．Ｘなどの無線ローカルエリアネットワーク（ＷＬＡＮ）プロトコル、Ｂｌｕｅｔｏｏｔｈ（登録商標）などの適切な短距離無線周波数通信プロトコル、または赤外線データ通信経路（ＩＲＤＡ）を使用することが可能である。

トランシーバ入力／出力ポート１７０９は、信号を受信し、いくつかの実施形態では、本明細書に記載されるようにフォーカスパラメータを取得するように構成され得る。

いくつかの実施形態では、デバイス１７００は、適切なコードを実行するプロセッサ１７０７を使用して、適切なオーディオ信号を生成するために採用されることができる。入力／出力ポート１７０９は、例えばマルチチャンネルスピーカーシステムおよび／またはヘッドフォン（ヘッドトラック付きまたは非トラック付きヘッドフォンであってもよい）等への任意の適切なオーディオ出力に結合されることができる。

一般に、本発明の様々な実施形態は、ハードウェアまたは特殊目的回路、ソフトウェア、ロジック、またはそれらの任意の組み合わせで実装することができる。例えば、いくつかの態様はハードウェアに実装されてもよく、他の態様は、コントローラ、マイクロプロセッサ、または他のコンピューティングデバイスによって実行され得るファームウェアまたはソフトウェアに実装されることができるが、本発明はこれに限定されない。

本発明の様々な態様は、ブロック図、フローチャートとして、または他の何らかの絵画的表現を用いて図示および説明され得るが、本明細書に記載されるこれらのブロック、装置、システム、技術または方法は、非限定例として、ハードウェア、ソフトウェア、ファームウェア、特殊目的回路または論理、汎用ハードウェアまたはコントローラもしくは他のコンピューティングデバイス、またはこれらの何らかの組み合わせで実施され得ることは十分に理解される。

この発明の実施形態は、プロセッサエンティティなどのモバイルデバイスのデータプロセッサによって実行可能なコンピュータソフトウェアによって、またはハードウェアによって、またはソフトウェアとハードウェアの組み合わせによって実装されることができる。さらにこの点で、図のような論理フローの任意のブロックは、プログラムステップ、または相互接続された論理回路、ブロックおよび機能、またはプログラムステップと論理回路、ブロックおよび機能の組み合わせを表すことができることに留意されたい。ソフトウェアは、メモリチップ、またはプロセッサ内に実装されたメモリブロック、ハードディスクまたはフロッピー（登録商標）ディスクなどの磁気媒体、および例えばＤＶＤおよびそのデータバリアント、ＣＤなどの光媒体などの物理媒体に格納することができる。

メモリは、ローカルの技術環境に適した任意のタイプであってよく、半導体ベースのメモリ装置、磁気メモリ装置およびシステム、光学メモリ装置およびシステム、固定メモリおよび取り外し可能メモリなど、任意の適切なデータ記憶技術を使用して実装することができる。データプロセッサは、ローカルの技術環境に適した任意のタイプであってよく、非限定的な例として、汎用コンピュータ、特殊目的コンピュータ、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、ゲートレベル回路およびマルチコアプロセッサアーキテクチャに基づくプロセッサの１以上を含むことができる。

本発明の実施形態は、集積回路モジュールなどの様々な構成要素で実施することができる。集積回路の設計は、概して高度に自動化されたプロセスである。論理レベル設計を、半導体基板上にエッチングして形成するのに適した半導体回路設計に変換するために、複雑で強力なソフトウェアツールが利用可能である。

カリフォルニア州マウンテンビューのシノプシス社やカリフォルニア州サンノゼのケイデンス・デザイン社などのプログラムは、確立された設計ルールとあらかじめ保存された設計モジュールのライブラリを使って、半導体チップ上の導線の配線や部品の配置を自動的に行う。半導体回路の設計が完了すると、設計結果は標準化された電子フォーマット（Ｏｐｕｓ、ＧＤＳＩＩなど）で、半導体製造施設または「ファブ」に送信され、製造される場合がある。

前述の説明は、例示的かつ非限定的な例によって、この発明の例示的な実施形態の完全かつ情報的な説明を提供したものである。しかしながら、添付の図面および添付の特許請求の範囲と合わせて読むと、前述の説明を考慮して、様々な変更および適応が関連技術の当業者にとって明らかになるであろう。しかし、この発明の教示のすべてのそのようなおよび類似の修正は、依然として添付の特許請求の範囲に定義されるこの発明の範囲に入る。

Claims

フォーカス形状を定義するように構成された少なくとも１つのフォーカスパラメータを取得し、オーディオシーンを表す空間オーディオ信号を処理して、フォーカス形状の内の空間オーディオ信号の部分の少なくとも一部において、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対する相対的なエンファシスを制御するように、修正されたオーディオシーンを表す処理された空間オーディオ信号を生成し、処理された空間オーディオ信号を出力し、修正されたオーディオシーンは、フォーカス形状の内の空間オーディオ信号の部分の少なくとも一部において、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部と比較して、相対的にエンファシスすることを可能にするように構成された手段を含む、空間オーディオ再生のための装置。
少なくとも１つのフォーカスパラメータは、フォーカス量を定義するようにさらに構成され、空間オーディオ信号を処理するように構成された手段は、フォーカス量に従って、さらにフォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対してフォーカス形状の内の空間オーディオ信号の少なくとも一部の相対的エンファシスを制御するように空間オーディオ信号を処理するように構成される、請求項１に記載の装置。
空間オーディオ信号を処理するように構成された手段は、前記フォーカス形状の内の前記空間オーディオ信号の部分の少なくとも一部を、前記フォーカス形状の外の前記空間オーディオ信号の部分の少なくとも一部と比較して相対的にエンファシスする、または相対的にエンファシスを減少させるように構成される、請求項１および２のいずれかに記載の装置。
前記空間オーディオ信号を処理するように構成された手段は、前記フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対して、前記フォーカス形状の内の空間オーディオ信号の部分の少なくとも一部における相対的サウンドレベルを増加または減少させるように構成されている、請求項１ないし３のいずれか１項に記載の装置。
空間オーディオ信号を処理するように構成された手段は、フォーカス量に従って、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対して、フォーカス形状の内の空間オーディオ信号の部分の少なくとも一部における相対的サウンドレベルを増加または減少させるように構成されている、請求項２に従属する場合、請求項４に記載の装置。
前記手段は、処理された空間オーディオ信号を出力することの少なくとも１つの態様を制御するための再生制御情報を取得するように構成され、処理された空間オーディオ信号を出力するように構成された手段が、請求項１から６のいずれかに記載の装置。修正されたオーディオシーンを表す処理された空間オーディオ信号を処理して、再生制御情報に従って出力空間オーディオ信号を生成するステップと、オーディオシーンを表す空間オーディオ信号を処理するように構成された手段の前に、再生制御情報に従って空間オーディオ信号を処理して、修正されたオーディオシーンを表す処理済空間オーディオ信号を生成し、処理済空間オーディオ信号を出力空間オーディオ信号として出力するステップと、のうちの１つを実行するように構成される、装置。
前記空間オーディオ信号および前記処理された空間オーディオ信号がそれぞれのアンビソニック信号を構成し、前記空間オーディオ信号を処理して処理された空間オーディオ信号を生成するように構成された手段が、１つ以上の周波数サブバンドについて、前記空間オーディオ信号に関連付けられたアンビソニック信号を、定義されたパターンのビーム信号のセットに変換し、前記ビーム信号のセットと、前記フォーカス形状と、前記フォーカス量とに基づいて、修正ビーム信号のセットを生成し、修正ビーム信号を変換し、処理された空間オーディオ信号に関連する修正アンビソニック信号を生成するように構成される、請求項２または請求項２に従属する任意の請求項に記載の装置。
前記定義されたパターンは、平面上または体積上に等間隔に配置された定義された数のビームからなる、請求項７に記載の装置。
空間オーディオ信号と処理された空間オーディオ信号は、それぞれの高次アンビソニック信号からなる、請求項７または８に記載の装置。
前記空間オーディオ信号と前記処理された空間オーディオ信号が、任意の次数のアンビソニック信号成分のサブセットからなる、請求項７ないし９のいずれか１項に記載の装置。
前記空間オーディオ信号および前記処理された空間オーディオ信号は、それぞれのパラメトリック空間オーディオ信号からなり、パラメトリック空間オーディオ信号は、１つ以上のオーディオチャネルおよび空間メタデータからなり、前記空間メタデータは、複数の周波数サブバンドに対するそれぞれの方向標示、エネルギー比パラメータ、潜在的に距離標示からなる請求項２または請求項２に従属する任意の請求項に記載の装置であって、ここで、前記入力空間オーディオ信号を処理して処理済み空間オーディオ信号を生成するように構成された手段は、前記空間メタデータと前記フォーカス形状および前記フォーカス量とに基づいて、１つ以上の周波数サブバンドのスペクトル調整係数を計算し、前記１つ以上のオーディオチャネルの１つ以上の周波数サブバンドに対してスペクトル調整係数を適用して、１つ以上の処理済みオーディオチャネルを生成し、フォーカス形状、フォーカス量、および空間メタデータの少なくとも一部に基づいて、処理された空間オーディオ信号の１つ以上の周波数サブバンドに関連するそれぞれの修正エネルギー比パラメータを計算し、前記１つ以上の処理済みオーディオチャネル、前記修正エネルギー比率パラメータ、および前記エネルギー比率パラメータ以外の空間メタデータからなる処理済み空間オーディオ信号を作るように構成される、装置。
空間オーディオ信号および処理された空間オーディオ信号は、マルチチャンネルラウドスピーカチャンネルおよび／またはオーディオオブジェクトチャンネルを含む、請求項２または請求項２に従属する任意の請求項に記載の装置。前記空間オーディオ信号を前記処理された空間オーディオ信号に処理するように構成された手段が、それぞれのオーディオチャネル方向標示と、フォーカス形状と、フォーカス量とに基づいて、利得調整係数を算出し、前記利得調整係数を前記各オーディオチャネルに適用し、１つ以上の処理済みマルチチャンネルスピーカオーディオチャンネルおよび／または１つ以上の処理済みオーディオオブジェクトチャンネルからなる処理済み空間オーディオ信号を＜構成する＞｛作る｝ように構成される、請求項１ないし５のいずれか１項に記載の装置。
前記マルチチャンネルラウドスピーカチャンネルおよび／またはオーディオオブジェクトチャンネルは、それぞれのオーディオチャンネル距離表示をさらに備え、前記演算利得調整係数は、前記オーディオチャンネル距離標示にさらに基づいている、請求項１２に記載の装置。
前記手段は、デフォルトのそれぞれのオーディオチャネル距離を決定するようにさらに構成され、前記コンピューティング利得調整係数は、前記オーディオチャネル距離に基づいてさらに構成される、請求項１２に記載の装置。
フォーカス形状を定義するように構成された少なくとも１つのフォーカスパラメータは、フォーカス方向、フォーカス幅、フォーカス高さ、フォーカス半径、フォーカス距離、フォーカス深度、フォーカス範囲、フォーカス径、フォーカス形状キャラクタライザのうちの少なくとも１つを含む、請求項１ないし１４のいずれか１項に記載の装置。
前記手段は、少なくとも１つの方向センサと少なくとも１つのユーザ入力とを備えるセンサ構成からフォーカス入力を得るようにさらに構成されており、前記フォーカス入力は、前記少なくとも１つの方向センサの方向に基づいて、前記フォーカス形状に対するフォーカス方向の標示と、少なくとも１つのユーザ入力に基づく、フォーカス幅の標示と、を備える、請求項１ないし１５のいずれか１項に記載の装置。
前記フォーカス入力は、前記少なくとも１つのユーザ入力に基づくフォーカス量の標示をさらに含む、請求項２または請求項２に従属する任意の請求項に従属するときの請求項１６に記載の装置。
少なくとも１つのプロセッサと、コンピュータプログラムコードを含む少なくとも１つのメモリとを備える装置であって、少なくとも１つのメモリおよびコンピュータプログラムコードは、少なくとも１つのプロセッサによって、装置に、少なくとも、フォーカス形状を定義するように構成された少なくとも１つのフォーカスパラメータを取得するステップと、オーディオシーンを表す空間オーディオ信号を処理して、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対して、フォーカス形状の内の空間オーディオ信号の少なくとも一部の相対的なエンファシスを制御するように、修正されたオーディオシーンを表す処理済み空間オーディオ信号を生成するステップと、処理された空間オーディオ信号を出力するステップであって、修正されたオーディオシーンが、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対するフォーカス形状の内の空間オーディオ信号の部分の少なくとも一部における相対的なエンファシスを可能にする、ステップと、を実行させるように構成される、装置。
フォーカス形状を定義するように構成された少なくとも１つのフォーカスパラメータを取得するステップと、オーディオシーンを表す空間オーディオ信号を処理して、フォーカス形状の内の空間オーディオ信号の部分の少なくとも一部における相対的なエンファシスを、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対して制御するように、修正されたオーディオシーンを表す処理済み空間オーディオ信号を生成するステップと、処理された空間オーディオ信号を出力するステップであって、修正されたオーディオシーンが、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対するフォーカス形状の内の空間オーディオ信号の部分の少なくとも一部における相対的なエンファシスを可能にする、ステップと、を含む方法。
装置に少なくとも、フォーカス形状を定義するように構成された少なくとも１つのフォーカスパラメータを取得するステップと、オーディオシーンを表す空間オーディオ信号を処理して、フォーカス形状の内の空間オーディオ信号の部分の少なくとも一部において、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部と比較して相対的なエンファシスを制御するように、修正されたオーディオシーンを表す処理済み空間オーディオ信号を生成するステップと、処理された空間オーディオ信号を出力するステップであって、修正されたオーディオシーンが、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対するフォーカス形状の内の空間オーディオ信号の部分の少なくとも一部における相対的なエンファシスを可能にする、ステップと、を実行させるための命令またはプログラム命令を含むコンピュータプログラムまたはコンピュータ読取可能な媒体。
装置に、少なくとも、フォーカス形状を定義するように構成された少なくとも１つのフォーカスパラメータを取得するステップと、オーディオシーンを表す空間オーディオ信号を処理して、フォーカス形状の内の空間オーディオ信号の部分の少なくとも一部において、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部と比較して相対的にエンファシスを制御するように、修正されたオーディオシーンを表す処理された空間オーディオ信号を生成するステップと、処理された空間オーディオ信号を出力するステップであって、修正されたオーディオシーンが、フォーカス形状の外の空間オーディオ信号の他の部分の少なくとも一部に対するフォーカス形状の内の空間オーディオ信号の部分の少なくとも一部における相対的なエンファシスを可能にする、ステップと、を実行させるためのプログラム命令を含む、非一時的なコンピュータ可読媒体。