JP6824420B2

JP6824420B2 - 適応型キャプチャを利用した、マイクアレイからの空間オーディオ信号フォーマット生成

Info

Publication number: JP6824420B2
Application number: JP2019537889A
Authority: JP
Inventors: ユハヴィルカモ; ミッコ・ヴィッレライティネン
Original assignee: ノキアテクノロジーズオーユー
Priority date: 2016-09-28
Filing date: 2017-09-22
Publication date: 2021-02-03
Anticipated expiration: 2037-09-22
Also published as: JP2019530389A; US11317231B2; US20220174444A1; GB201616478D0; CN109791769A; US11671781B2; WO2018060550A1; EP3520104A4; US20210281964A1; CN118368580A; CN109791769B; EP3520104A1; GB2554446A

Description

本願は、適応型信号処理技術を利用した、マイクアレイから球面高調波信号を生成する装置および方法に関する。

背景

以下の開示に関して、空間音声キャプチャおよび再生の２つの特有な手法が存在する。
１）アンビソニックス（Ambisonics）：マイクアレイを利用して、球面高調波信号が線形（すなわち非適応的）に取得される。球面高調波信号は、従来の非適応型方法により、ラウドスピーカに対して復号されるか、ヘッドホンに両耳形式で復号可能である。両耳用再生の場合、球面高調波信号は聴き手の頭部の向きに基づいて、回転行列を利用して回転でき、回転された信号が、両耳用に線形復号可能となる。
２）適応型空間オーディオキャプチャ（Spatial Audio Capture：ＳＰＡＣ）方法：マイクアレイ信号からの知覚的に関連した空間情報（例えば、周波数帯域における到来音の方向）の動的分析を利用したものである。この情報は、いわゆる空間メタデータと呼ばれるもので、元の録音音場と知覚的に類似した空間再生を動的に合成するために適用される。このような適応型方法を十分に実施した場合、多くの実用的デバイスにおいて、アンビソニックスよりも知覚的に優れたものとなるため、幅広い種類のキャプチャデバイスにも適用可能である。

アンビソニックスオーディオフォーマット（または球面高調波信号）は従来の空間オーディオ信号表現である。近年、この信号表現（フォーマット）は、空間オーディオ送信にもよく選ばれるようになっている。これは、異なる複数の次数の球面高調波からなる。ゼロ次高調波（＝ゼロ空間周波数）は、全方向性信号で表される。一次高調波は、双極子パターンで表され、それ以上の次数は四曲子で表され、以下同となる。以下の開示における用語、高次アンビソニックス（Higher-Order Ambisonics：ＨＯＡ）は、ゼロ次から二次（またはさらに高次）の球面高調波信号を利用した技術を指す。球面高調波信号については多くの変形や構成がある。例えば、相対振幅または球面高調波の順序は定義により異なりうる。当該任意の変数間の変換は、典型的には線形（行列）演算による簡潔なものである。

アンビソニックオーディオフォーマット（または球面高調波信号）も、空間オーディオ送信用のフォーマットに利用可能である。例えば、ＹｏｕＴｕｂｅ（登録商標）３Ｄオーディオ／ビデオサービスが、１つの全方向性信号（ゼロ次）および３つの双極子信号（一次）からなる一次アンビソニックフォーマット（球面高調波信号）を利用した空間オーディオストリーミングを開始した。この手法は品質、ビットレートの点で理想的ではないが、実際にエンドユーザに十分な体験を提供できることを、現存するストリーミングサービスが示している。さらに、アンビソニックオーディオフォーマットは簡潔で、確立されたフォーマットである。すなわち、ＹｏｕＴｕｂｅ等のサービスでの利用には有用なオーディオフォーマットなのである。アンビソニックオーディオフォーマット信号は受信部側で線形復号可能で、公知の方法により、ヘッドホン（両耳用）またはラウドスピーカに届けられる。

球面高調波信号の生成には問題が伴う。球面高調波信号の生成のためには、専用のマイクアレイ形式の専用の装置が、線形手段で信号を取得するのに必要となる。それ以外の、従来の、または一般的なマイク構成により球面高調波信号を生成して、線形組合せ処理によりマイク信号を処理するような場合には、品質結果が低い球面高調波信号が生成されうる。

摘要

第１の態様に係る装置が提供され、該装置は、少なくとも２つのマイクオーディオ信号を受信し、前記少なくとも２つのマイクオーディオ信号に対応付けられた空間メタデータを決定し、既定の次数の空間オーディオ信号フォーマットを出力するべく、少なくとも１つのマイクオーディオ信号および前記空間メタデータに基づいて、複数の球面高調波オーディオ信号を適応的に合成するように構成されたプロセッサを備える。

前記プロセッサは、前記少なくとも２つのマイクオーディオ信号をマイクアレイから受信するようにさらに構成されてもよい。

前記プロセッサは、前記少なくとも２つのマイクオーディオ信号を分析して、前記空間メタデータを決定するように構成されてもよい。

前記プロセッサは、前記少なくとも２つのマイクオーディオ信号に対応付けられた前記空間メタデータをさらに受信するように構成されてもよい。

前記複数の球面高調波オーディオ信号は、一次球面高調波オーディオ信号であってもよい。

前記少なくとも１つのマイクオーディオ信号および前記空間メタデータに基づいて、前記複数の球面高調波オーディオ信号を適応的に合成するように構成された前記プロセッサは、前記少なくとも１つのマイクオーディオ信号の第１の部分および前記空間メタデータに対して、前記複数の球面高調波オーディオ信号を適応的に合成し、前記少なくとも１つのマイクオーディオ信号の第２の部分に対して、前記複数の球面高調波オーディオ信号を線形演算によって合成し、前記球面高調波オーディオ信号を組み合わせるようにさらに構成されてもよい。

前記少なくとも１つのマイクオーディオ信号の前記第１の部分は前記少なくとも１つのマイクオーディオ信号の第１の周波数帯域であってもよく、前記少なくとも１つのマイクオーディオ信号の前記第２の部分は前記少なくとも１つのマイクオーディオ信号の第２の周波数帯域であってもよい。

前記プロセッサは、前記少なくとも１つのマイクオーディオ信号を生成する少なくとも１つのマイクの物理的配置に基づいて、前記第１の周波数帯域を決定するようにさらに構成されてもよい。

前記少なくとも１つのマイクオーディオ信号および前記空間メタデータに基づいて、前記複数の球面高調波オーディオ信号を適応的に合成するように構成された前記プロセッサは、少なくとも１つの次数の球面高調波オーディオ信号に対して、前記少なくとも１つのマイクオーディオ信号の第１の周波数帯域部分および前記空間メタデータの第１の周波数部分に基づいて、球面高調波オーディオ信号を適応的に合成し、少なくとも１つの別の次数の球面高調波オーディオ信号に対して、球面高調波オーディオ信号を線形演算によって合成し、前記少なくとも１つの次数の球面高調波オーディオ信号と前記少なくとも１つの別の次数の球面高調波オーディオ信号とを組み合わせるようにさらに構成されてもよい。

前記プロセッサは、前記少なくとも１つのマイクオーディオ信号を生成する少なくとも１つのマイクの物理的配置に基づいて、前記少なくとも１つの次数の球面高調波信号を決定するようにさらに構成されてもよい。

前記少なくとも１つのマイクオーディオ信号および前記空間メタデータに基づいて、前記複数の球面高調波オーディオ信号を適応的に合成するように構成された前記プロセッサは、少なくとも１つの球面高調波オーディオ信号軸に対して、前記少なくとも１つのマイクオーディオ信号の第１の周波数帯域部分および前記空間メタデータの第１の周波数部分に基づいて、球面高調波オーディオ信号を適応的に合成し、少なくとも１つの別の球面高調波オーディオ信号軸に対して、球面高調波オーディオ信号を線形演算によって合成し、前記少なくとも１つの球面高調波オーディオ信号軸と前記少なくとも１つの別の球面高調波オーディオ信号軸とを組み合わせるようにさらに構成されてもよい。

前記少なくとも１つのマイクオーディオ信号および前記空間メタデータに基づいて、前記複数の球面高調波オーディオ信号を適応的に合成するように構成された前記プロセッサは、前記少なくとも１つのマイクオーディオ信号および前記空間メタデータの位置部分に基づいて、複数の定義位置合成チャネルオーディオ信号を生成し、前記複数の定義位置合成チャネルオーディオ信号に対して、線形演算によって、球面高調波オーディオ信号を適応的に合成するようにさらに構成されてもよい。

前記少なくとも１つのマイクオーディオ信号および前記空間メタデータの位置部分に基づいて、前記複数の定義位置合成チャネルオーディオ信号を生成するように構成された前記プロセッサは、前記空間メタデータの比部分に基づいて、前記少なくとも１つのマイクオーディオ信号を指向性部分と無指向性部分とに分割し、前記少なくとも１つのマイクオーディオ信号の前記指向性部分を振幅パンニングして、前記空間メタデータの位置部分に基づいて、前記定義位置合成チャネルオーディオ信号の指向性部分を生成し、前記少なくとも１つのマイクオーディオ信号の前記無指向性部分から、前記定義位置合成チャネルオーディオ信号の周囲部分を脱相関合成し、前記定義位置合成チャネルオーディオ信号の前記指向性部分と前記定義位置合成チャネルオーディオ信号の前記無指向性部分とを組み合わせて、前記複数の定義位置合成チャネルオーディオ信号を生成するようにさらに構成されてもよい。

前記少なくとも１つのマイクオーディオ信号および前記空間メタデータに基づいて、前記複数の球面高調波オーディオ信号を適応的に合成するように構成された前記プロセッサは、前記少なくとも１つのマイクオーディオ信号および前記空間メタデータの位置部分に基づいて、球面高調波オーディオ信号のモデル化された移動音源組を生成し、前記少なくとも１つのマイクオーディオ信号に基づいて、球面高調波オーディオ信号の周囲組を生成し、前記球面高調波オーディオ信号のモデル化された移動音源組と前記球面高調波オーディオ信号の周囲組とを組み合わせて、前記複数の球面高調波オーディオ信号を生成するようにさらに構成されてもよい。

前記プロセッサは、前記空間メタデータの比部分に基づいて、前記少なくとも１つのマイクオーディオ信号を指向性部分と無指向性部分とに分割するようにさらに構成されてもよい。

前記少なくとも１つのマイクオーディオ信号および前記空間メタデータの位置部分に基づいて、前記球面高調波オーディオ信号のモデル化された移動音源組を生成するように構成された前記プロセッサは、前記メタデータの前記指向性部分に基づいて、少なくとも１つのモデル化された移動音源重みを決定し、前記少なくとも１つのマイクオーディオ信号の前記指向性部分に適用された前記少なくとも１つのモデル化された移動音源重みから、前記球面高調波オーディオ信号のモデル化された移動音源組を生成するようにさらに構成されてもよい。

前記少なくとも１つのマイクオーディオ信号に基づいて、前記球面高調波オーディオ信号の周囲組を生成するように構成された前記プロセッサは、前記球面高調波オーディオ信号の周囲組を脱相関合成するようにさらに構成されてもよい。

前記少なくとも１つのマイクオーディオ信号および前記空間メタデータに基づいて、前記複数の球面高調波オーディオ信号を合成するように構成された前記プロセッサは、前記メタデータに基づいて対象確率的特性を決定し、前記少なくとも１つのマイクオーディオ信号を分析して、少なくとも１つの短時間確率的特徴を決定し、前記短時間確率的特徴および前記対象確率的特性に基づいて最適化された重みの組を生成し、前記重みの組を前記少なくとも１つのマイクオーディオ信号に適用することに基づいて、複数の球面高調波オーディオ信号を生成するようにさらに構成されてもよい。

前記少なくとも１つのマイクオーディオ信号に対応付けられた前記空間メタデータは、ある周波数帯域に対する前記空間メタデータの方向パラメータと、前記周波数帯域に対する前記空間メタデータの比パラメータと、の内の少なくとも１つを含んでもよい。

前記少なくとも２つのマイクは、外部マイク、デバイスマイク、または外部マイクとデバイスマイクとの組合せを含んでもよい。

前記少なくとも１つのマイクオーディオ信号は、前記少なくとも２つのマイクオーディオ信号または外部チャネルの一方を含んでもよい。

第２の態様に係る方法が提供され、該方法は、少なくとも２つのマイクオーディオ信号を受信することと、前記少なくとも２つのマイクオーディオ信号に対応付けられた空間メタデータを決定することと、既定の次数の空間オーディオ信号フォーマットを出力するべく、少なくとも１つのマイクオーディオ信号および前記空間メタデータに基づいて、複数の球面高調波オーディオ信号を適応的に合成することと、を含む。

前記方法は、前記少なくとも２つのマイクオーディオ信号をマイクアレイから受信することをさらに含んでもよい。

前記少なくとも２つのマイクオーディオ信号に対応付けられた空間メタデータを決定することは、前記少なくとも２つのマイクオーディオ信号を分析して、前記空間メタデータを決定することをさらに含んでもよい。

前記少なくとも２つのマイクオーディオ信号に対応付けられた空間メタデータを決定することは、前記少なくとも２つのマイクオーディオ信号に対応付けられた空間メタデータを受信することをさらに含んでもよい。

前記少なくとも１つのマイクオーディオ信号および前記空間メタデータに基づいて、前記複数の球面高調波オーディオ信号を適応的に合成することは、前記少なくとも１つのマイクオーディオ信号の第１の部分および前記空間メタデータに対して、前記複数の球面高調波オーディオ信号を適応的に合成することと、前記少なくとも１つのマイクオーディオ信号の第２の部分に対して、前記複数の球面高調波オーディオ信号を線形演算によって合成することと、前記球面高調波オーディオ信号を組み合わせることと、をさらに含んでもよい。

前記方法は、前記少なくとも１つのマイクオーディオ信号を生成する少なくとも１つのマイクの物理的配置に基づいて、前記第１の周波数帯域を決定することをさらに含んでもよい。

前記少なくとも１つのマイクオーディオ信号および前記空間メタデータに基づいて、前記複数の球面高調波オーディオ信号を適応的に合成することは、少なくとも１つの次数の球面高調波オーディオ信号に対して、前記少なくとも１つのマイクオーディオ信号の第１の周波数帯域部分および前記空間メタデータの第１の周波数部分に基づいて、球面高調波オーディオ信号を適応的に合成することと、少なくとも１つの別の次数の球面高調波オーディオ信号に対して、球面高調波オーディオ信号を線形演算によって合成することと、前記少なくとも１つの次数の球面高調波オーディオ信号と前記少なくとも１つの別の次数の球面高調波オーディオ信号とを組み合わせることと、をさらに含んでもよい。

前記方法は、前記少なくとも１つのマイクオーディオ信号を生成する少なくとも１つのマイクの物理的配置に基づいて、前記少なくとも１つの次数の球面高調波信号を決定することをさらに含んでもよい。

前記少なくとも１つのマイクオーディオ信号および前記空間メタデータに基づいて、前記複数の球面高調波オーディオ信号を適応的に合成することは、少なくとも１つの球面高調波オーディオ信号軸に対して、前記少なくとも１つのマイクオーディオ信号の第１の周波数帯域部分および前記空間メタデータの第１の周波数部分に基づいて、球面高調波オーディオ信号を適応的に合成することと、少なくとも１つの別の球面高調波オーディオ信号軸に対して、球面高調波オーディオ信号を線形演算によって合成することと、前記少なくとも１つの球面高調波オーディオ信号軸と前記少なくとも１つの別の球面高調波オーディオ信号軸とを組み合わせることと、をさらに含んでもよい。

前記少なくとも１つのマイクオーディオ信号および前記空間メタデータに基づいて、前記複数の球面高調波オーディオ信号を適応的に合成することは、前記少なくとも１つのマイクオーディオ信号および前記空間メタデータの位置部分に基づいて、複数の定義位置合成チャネルオーディオ信号を生成することと、前記複数の定義位置合成チャネルオーディオ信号に対して、線形演算によって、球面高調波オーディオ信号を適応的に合成することと、をさらに含んでもよい。

前記少なくとも１つのマイクオーディオ信号および前記空間メタデータの位置部分に基づいて、前記複数の定義位置合成チャネルオーディオ信号を生成することは、前記空間メタデータの比部分に基づいて、前記少なくとも１つのマイクオーディオ信号を指向性部分と無指向性部分とに分割することと、前記少なくとも１つのマイクオーディオ信号の前記指向性部分を振幅パンニングして、前記空間メタデータの位置部分に基づいて、前記定義位置合成チャネルオーディオ信号の指向性部分を生成することと、前記少なくとも１つのマイクオーディオ信号の前記無指向性部分から、前記定義位置合成チャネルオーディオ信号の周囲部分を脱相関合成することと、前記定義位置合成チャネルオーディオ信号の前記指向性部分と前記定義位置合成チャネルオーディオ信号の前記無指向性部分とを組み合わせて、前記複数の定義位置合成チャネルオーディオ信号を生成することと、をさらに含んでもよい。

前記少なくとも１つのマイクオーディオ信号および前記空間メタデータに基づいて、前記複数の球面高調波オーディオ信号を適応的に合成することは、前記少なくとも１つのマイクオーディオ信号および前記空間メタデータの位置部分に基づいて、球面高調波オーディオ信号のモデル化された移動音源組を生成することと、前記少なくとも１つのマイクオーディオ信号に基づいて、球面高調波オーディオ信号の周囲組を生成することと、前記球面高調波オーディオ信号のモデル化された移動音源組と前記球面高調波オーディオ信号の周囲組とを組み合わせて、前記複数の球面高調波オーディオ信号を生成することと、をさらに含んでもよい。

前記方法は、前記空間メタデータの比部分に基づいて、前記少なくとも１つのマイクオーディオ信号を指向性部分と無指向性部分とに分割することをさらに含んでもよい。

前記少なくとも１つのマイクオーディオ信号および前記空間メタデータの位置部分に基づいて、前記球面高調波オーディオ信号のモデル化された移動音源組を生成することは、前記メタデータの前記指向性部分に基づいて、少なくとも１つのモデル化された移動音源重みを決定することと、前記少なくとも１つのマイクオーディオ信号の前記指向性部分に適用された前記少なくとも１つのモデル化された移動音源重みから、前記球面高調波オーディオ信号のモデル化された移動音源組を生成することと、をさらに含んでもよい。

前記少なくとも１つのマイクオーディオ信号に基づいて、前記球面高調波オーディオ信号の周囲組を生成することは、前記球面高調波オーディオ信号の周囲組を脱相関合成することをさらに含んでもよい。

前記少なくとも１つのマイクオーディオ信号および前記空間メタデータに基づいて、前記複数の球面高調波オーディオ信号を合成することは、前記メタデータに基づいて対象確率的特性を決定することと、前記少なくとも１つのマイクオーディオ信号を分析して、少なくとも１つの短時間確率的特徴を決定することと、前記短時間確率的特徴および前記対象確率的特性に基づいて最適化された重みの組を生成することと、前記重みの組を前記少なくとも１つのマイクオーディオ信号に適用することに基づいて、複数の球面高調波オーディオ信号を生成することと、をさらに含んでもよい。

前記少なくとも１つのマイクオーディオ信号は、前記少なくとも２つのマイクオーディオ信号または外部チャネルの一方を含んでもよい

第３の態様に係る装置が提供され、該装置は、少なくとも２つのマイクオーディオ信号を受信する手段と、前記少なくとも２つのマイクオーディオ信号に対応付けられた空間メタデータを決定する手段と、既定の次数の空間オーディオ信号フォーマットを出力するべく、少なくとも１つのマイクオーディオ信号および前記空間メタデータに基づいて、複数の球面高調波オーディオ信号を適応的に合成する手段と、を備える。

前記少なくとも２つのマイクオーディオ信号を受信する手段はさらに、前記オーディオ信号をマイクアレイから受信してもよい。

前記少なくとも２つのマイクオーディオ信号に対応付けられた空間メタデータを決定する手段は、前記少なくとも２つのマイクオーディオ信号を分析して、前記空間メタデータを決定する手段をさらに備えてもよい。

前記少なくとも２つのマイクオーディオ信号に対応付けられた空間メタデータを決定する手段は、前記少なくとも２つのマイクオーディオ信号に対応付けられた空間メタデータを受信する手段をさらに備えてもよい。

前記少なくとも１つのマイクオーディオ信号および前記空間メタデータに基づいて、前記複数の球面高調波オーディオ信号を適応的に合成する手段は、前記少なくとも１つのマイクオーディオ信号の第１の部分および前記空間メタデータに対して、前記複数の球面高調波オーディオ信号を適応的に合成する手段と、前記少なくとも１つのマイクオーディオ信号の第２の部分に対して、前記複数の球面高調波オーディオ信号を線形演算によって合成する手段と、前記球面高調波オーディオ信号を組み合わせる手段と、をさらに備えてもよい。

前記装置は、前記少なくとも１つのマイクオーディオ信号を生成する少なくとも１つのマイクの物理的配置に基づいて、前記第１の周波数帯域を決定する手段をさらに備えてもよい。

前記少なくとも１つのマイクオーディオ信号および前記空間メタデータに基づいて、前記複数の球面高調波オーディオ信号を適応的に合成する手段は、少なくとも１つの次数の球面高調波オーディオ信号に対して、前記少なくとも１つのマイクオーディオ信号の第１の周波数帯域部分および前記空間メタデータの第１の周波数部分に基づいて、球面高調波オーディオ信号を適応的に合成する手段と、少なくとも１つの別の次数の球面高調波オーディオ信号に対して、球面高調波オーディオ信号を線形演算によって合成する手段と、前記少なくとも１つの次数の球面高調波オーディオ信号と前記少なくとも１つの別の次数の球面高調波オーディオ信号とを組み合わせる手段と、をさらに備えてもよい。

前記装置は、前記少なくとも１つのマイクオーディオ信号を生成する少なくとも１つのマイクの物理的配置に基づいて、前記少なくとも１つの次数の球面高調波信号を決定する手段をさらに備えてもよい。

前記少なくとも１つのマイクオーディオ信号および前記空間メタデータに基づいて、前記複数の球面高調波オーディオ信号を適応的に合成する手段は、少なくとも１つの球面高調波オーディオ信号軸に対して、前記少なくとも１つのマイクオーディオ信号の第１の周波数帯域部分および前記空間メタデータの第１の周波数部分に基づいて、球面高調波オーディオ信号を適応的に合成する手段と、少なくとも１つの別の球面高調波オーディオ信号軸に対して、球面高調波オーディオ信号を線形演算によって合成する手段と、前記少なくとも１つの球面高調波オーディオ信号軸と前記少なくとも１つの別の球面高調波オーディオ信号軸とを組み合わせる手段と、をさらに備えてもよい。

前記少なくとも１つのマイクオーディオ信号および前記空間メタデータに基づいて、前記複数の球面高調波オーディオ信号を適応的に合成する手段は、前記少なくとも１つのマイクオーディオ信号および前記空間メタデータの位置部分に基づいて、複数の定義位置合成チャネルオーディオ信号を生成する手段と、前記複数の定義位置合成チャネルオーディオ信号に対して、線形演算によって、球面高調波オーディオ信号を適応的に合成する手段と、をさらに備えてもよい。

前記少なくとも１つのマイクオーディオ信号および前記空間メタデータの位置部分に基づいて、前記複数の定義位置合成チャネルオーディオ信号を生成する手段は、前記空間メタデータの比部分に基づいて、前記少なくとも１つのマイクオーディオ信号を指向性部分と無指向性部分とに分割する手段と、前記少なくとも１つのマイクオーディオ信号の前記指向性部分を振幅パンニングして、前記空間メタデータの位置部分に基づいて、前記定義位置合成チャネルオーディオ信号の指向性部分を生成する手段と、前記少なくとも１つのマイクオーディオ信号の前記無指向性部分から、前記定義位置合成チャネルオーディオ信号の周囲部分を脱相関合成する手段と、前記定義位置合成チャネルオーディオ信号の前記指向性部分と前記定義位置合成チャネルオーディオ信号の前記無指向性部分とを組み合わせて、前記複数の定義位置合成チャネルオーディオ信号を生成する手段と、をさらに備えてもよい。

前記少なくとも１つのマイクオーディオ信号および前記空間メタデータに基づいて、前記複数の球面高調波オーディオ信号を適応的に合成する手段は、前記少なくとも１つのマイクオーディオ信号および前記空間メタデータの位置部分に基づいて、球面高調波オーディオ信号のモデル化された移動音源組を生成する手段と、前記少なくとも１つのマイクオーディオ信号に基づいて、球面高調波オーディオ信号の周囲組を生成する手段と、前記球面高調波オーディオ信号のモデル化された移動音源組と前記球面高調波オーディオ信号の周囲組とを組み合わせて、前記複数の球面高調波オーディオ信号を生成する手段と、をさらに備えてもよい。

前記装置は、前記空間メタデータの比部分に基づいて、前記少なくとも１つのマイクオーディオ信号を指向性部分と無指向性部分とに分割する手段をさらに備えてもよい。

前記少なくとも１つのマイクオーディオ信号および前記空間メタデータの位置部分に基づいて、前記球面高調波オーディオ信号のモデル化された移動音源組を生成する手段は、前記メタデータの前記指向性部分に基づいて、少なくとも１つのモデル化された移動音源重みを決定する手段と、前記少なくとも１つのマイクオーディオ信号の前記指向性部分に適用された前記少なくとも１つのモデル化された移動音源重みから、前記球面高調波オーディオ信号のモデル化された移動音源組を生成する手段と、をさらに備えてもよい。

前記少なくとも１つのマイクオーディオ信号に基づいて、前記球面高調波オーディオ信号の周囲組を生成する手段は、前記球面高調波オーディオ信号の周囲組を脱相関合成する手段をさらに備えてもよい。

前記少なくとも１つのマイクオーディオ信号および前記空間メタデータに基づいて、前記複数の球面高調波オーディオ信号を合成する手段は、前記メタデータに基づいて対象確率的特性を決定する手段と、前記少なくとも１つのマイクオーディオ信号を分析して、少なくとも１つの短時間確率的特徴を決定する手段と、前記短時間確率的特徴および前記対象確率的特性に基づいて最適化された重みの組を生成する手段と、前記重みの組を前記少なくとも１つのマイクオーディオ信号に適用することに基づいて、複数の球面高調波オーディオ信号を生成する手段と、をさらに備えてもよい。

媒体に記憶されたコンピュータプログラム製品により、装置に本明細書に記載の方法を実行させてもよい。

電子デバイスは、本明細書に記載の装置を含んでもよい。

チップセットは、本明細書に記載の装置を含んでもよい。

本願の実施形態は、現状の技術に関する問題を解決することを目的とする。

本願をよりよく理解できるよう、以下の添付の図を例示的に参照する。
図１ａは、いくつかの実施形態を実施するに適した分散型オーディオキャプチャおよび処理システムおよび装置を模式的に示す。図１ｂは、いくつかの実施形態を実施するに適した分散型オーディオキャプチャおよび処理システムおよび装置を模式的に示す。図２は、いくつかの実施形態に係る図１ｂに示すようなシンセサイザの第１の例を模式的に示す。図３は、いくつかの実施形態に係る図１ｂに示すようなシンセサイザの第２の例を模式的に示す。図４は、いくつかの実施形態に係る図１ｂに示すようなシンセサイザの第３の例を模式的に示す。図５は、いくつかの実施形態に係る図１ｂに示すような例示的ハイブリッドシンセサイザを模式的に示す。図６は、いくつかの実施形態を実施するに適した装置を模式的に示す。

以下に、マイクアレイからの、効果的な球面高調波信号生成を実現するのに適した装置や、利用できうる機構についてより詳細に説明する。以下の例では、オーディオ信号とオーディオキャプチャ信号が説明される。ただし、ある実施形態において、本装置は、オーディオ信号を取得する、またはオーディオ信号やその他の情報信号を受信するように構成された、任意の適切な電子デバイスまたは装置の一部であってもよいことが理解されよう。以下、球面高調波という用語は、空間にわたる高調波を表す。以下により詳細に説明するように、適応型手段は、処理される信号の性質に適応した処理であることを示す。したがって、以下に記載するように、オーディオ信号から特性が抽出され、信号に対する処理が、当該特性に応じて異なっていてもよい。本明細書に記載の実施形態では、周波数帯域および／または球面高調波の次数、および／または空間寸法の少なくとも一部に関する適応型処理を説明する。すなわち、従来のアンビソニックスとは異なり、入出力間が線形対応関係とならない。

具体的には、以下の開示では適応型ＳＰＡＣ技術が説明される。これは、ラウドスピーカまたはヘッドホンの前段階での、マイクアレイからの空間オーディオキャプチャ方法を表す。以下に説明する実施形態では、ＳＰＡＣキャプチャ方法の、球面高調波信号表現に対する互換性を実現可能とすることに関する。言い換えると、動的ＳＰＡＣ分析を利用したシステムの出力の、既存のアンビソニックデコーダに対する互換性を実現するのである。ここで、空間オーディオキャプチャ（Spatial Audio Capture：ＳＰＡＣ）は、適応型時間周波数分析および処理により、マイクアレイ付きの任意のデバイス（例えばノキアＯＺＯまたは携帯電話）から高感知品質空間オーディオ再生を実現する技術を指す。水平面におけるＳＰＡＣキャプチャには、少なくとも３つのマイクが必要で、３Ｄキャプチャには少なくとも４つのマイクが必要である。ＳＰＡＣ方法は適応的である。言い換えると、従来の最先端線形キャプチャ技術から空間的精度を向上する、非線形手法が利用される。

従来の線形演算および方法（マイクアレイから球面高調波信号を取得するためのもの）の問題点としては、オーディオ信号を正確に取得するために、マイクアレイに厳格な要件が課されることが挙げられる。例えば、一次球面高調波オーディオ信号を取得するには、指向性センサ付きのＢフォーマットマイクが必要となる。

あるいは、ノキアＯＺＯまたはスマートフォンのような剛性の高いデバイスの場合、全方向性マイク（センサ）がデバイス表面に設けられうる。原則として、マイク信号に基づいて、線形方法により球面高調波信号が取得できる。実際、詳細に後述するように、線形方法では、多くの関連する現実的な使用事例で極めて厳格な要件が課される。

第１の線形手法として、指定線形フィルタの行列を、マイク信号に適用して球面高調波成分を得るものである。同様の異なる線形手法として、マイク信号を時間−周波数領域に変換して、各周波数帯域に指定ミキシング行列を適用して時間−周波数領域で球面高調波信号を得ることが挙げられる。得られた時間−周波数領域における球面高調波信号は、時間領域ＰＣＭ信号に逆変換される。

しかし、線形空間オーディオキャプチャ（より詳細に後述）には根本的な制限がある。そもそもデバイスは、低周波キャプチャ可能なほど大きくなければならない（例えば、ＯＺＯのサイズは２６０ｘ１７０ｘ１６０ｍｍ程度である）。さらに、高周波キャプチャ可能なように、マイクは十分密に配置されていなければならない（例えば、２ｃｍ間隔）。したがって、多数のマイクについての要件が課される。これら性質を全て十分に満たすようなデバイスの例として、マイク３２個のアイゲンマイク（Eigenmike）があるが、これはオーディオに限定されたソリューションである。

例えば、８個のマイクが設けられた、ＯＺＯほどのサイズのデバイスへの線形方法の適用は、マイク間隔に比して、中〜高聴覚周波数（例えば１．５ｋＨｚ超）の波長が狭過ぎるという問題がある。このような周波数では、空間エイリアシングという公知の効果が生じる。すなわち、球面高調波オーディオ信号が求められた空間キャプチャパターンを維持できなくなり、その結果、当該信号のラウドスピーカまたはヘッドホンへのあらゆる復号が、当該周波数で空間的に誤ったものとなるのである。例えば、再生音が、誤った方向から到来したように知覚されるか、指向性の知覚が不明瞭になりうる。言い換えると、従来の線形方法では、ＯＺＯまたは同様のデバイスを利用して、球面高調波オーディオ信号を十分な可聴帯域で取得することができないのである。

小型デバイスの問題は、アレイのサイズ対して、低周波数で波長が広くなってしまうことである。低周波数（例えば、２００Ｈｚ）で、オーディオ波長が１．７ｍになる。スマートフォンのような小型デバイスでは、マイクが２ｃｍ間隔で配置されうる。オーディオ波長が長いと、異なる複数のマイクから到来する音が極めて類似してしまう。一次以上の球面高調波は、マイク信号間の差分から数式化され、この差分信号が小型デバイスでは、マイクの自己ノイズやその他の干渉に対して、振幅が極めて小さくなりうる。例えば、２００Ｈｚでは、想定される小型デバイスは、一次球面高調波で、約２０ｄＢ低減した信号ノイズ比に悩まされうる。これはより高次の球面高調波でより顕著となる。また、より高次の線形キャプチャの場合、小型デバイスでは現実的でないほど多数の（例えば９個以上）のマイクが求められる。言い換えると、従来の線形方法では、携帯電話または同様のデバイスを利用して、十分な可聴帯域で球面高調波オーディオ信号が取得できない。

上記内容を要約すると、ＯＺＯデバイスの場合、高周波数に対してマイクが分散し過ぎており、携帯電話のような小型装置の場合、低周波数に対してアレイのサイズが小さ過ぎる。

言い換えると、マイク３２個のアイゲンマイクのような最上位アレイでないデバイスでは、可聴周波数範囲の大部分が、従来の線形方法では十分に取得できないのである。この問題は、あらゆる線形、すなわち非適応型空間キャプチャ技術で生じるもので、球面高調波表現が利用された場合に限らない。したがって、実用的なデバイスの種類の大部分で、球面高調波生成に関しても、適応型ＳＰＡＣ方法を空間オーディオキャプチャに利用することが求められる。

この問題を解決して、球面高調波信号を所望の帯域で線形に求めるため、ＯＺＯ型カメラに多数（３２個以上等）の高性能マイクを備えることが考えられる。しかしこれでは、デバイスが複雑で非常に高価になってしまう。本実施形態の概念は、より少ないマイク（８個等）の、簡潔かつより費用効果の高いデバイスを構築することである。ハンドヘルド球面カメラまたはスマートフォンのような小型デバイスでは、利用可能な線形キャプチャの従来技術が存在しない。

同様に、ビデオキャプチャ手段に加えて、線形球面高調波をキャプチャ可能な外部高性能マイクアレイを、オーディオ／ビデオキャプチャに利用できるが、ビデオデバイス自体に設けられたマイクを直接利用した方が便利である。

適応型の知覚に基づく空間オーディオキャプチャに対し、数多くの高性能方法が存在する。本明細書にさらに詳細に説明される概念では、マイクアレイから球面高調波オーディオ信号を生成するのに、ＳＰＡＣ方法を利用する。具体的には、ある実施形態において、ＳＰＡＣ方法が利用することで、少なくとも一部の周波数で球面高調波信号を所望のとおりに線形に取得できないマイクアレイにより、球面高調波信号を生成可能とするものである。

本明細書で使用されるＳＰＡＣという用語は、空間オーディオキャプチャを実現するあらゆる適応型アレイ信号処理技術を網羅する、全般的用語である。本範囲の方法は、周波数帯域信号における分析と処理を適用する。これが、空間オーディオ知覚にとって有意の領域であるためである。録音された音声の指向性または無指向性を判定するための、到来音の方向、および／または比やエネルギーパラメータのような空間メタデータが、周波数帯域において動的に分析される。同等のマイクアレイで、アンビソニックスの場合を越える空間精度で、空間音を、ヘッドホンまたはラウドスピーカに動的に合成するため、再生段階にてメタデータが適用される。例えば、アレイに到来する平面波は、受信端で、点音源として再生可能である。これは、極めて高次のアンビソニック再生の性能に比肩するものである。

空間オーディオキャプチャ（ＳＰＡＣ）再生の一方法として、指向性オーディオ符号化（Directional Audio Coding：ＤｉｒＡＣ）が挙げられる。これは、音場強度と、エネルギー分析とを利用して、ラウドスピーカまたはヘッドホンへの高品質適応型空間オーディオ合成を可能とする空間メタデータを実現するものである。別の例としては、高調平面波拡張（Ｈａｒｐｅｘ）が挙げられる。これは、２つの平面波を同時に分析可能で、さらに特定の音場状況下で、空間精度を向上できうるものである。さらなる方法として、携帯電話空間オーディオキャプチャを主に対象としたものがある。これはマイク間の遅延とコヒーレンス分析を利用して、空間メタデータを得るものである。この方法の別の対象デバイスとしては、ＯＺＯのようなより多くのマイクと、遮蔽体を含むものが挙げられる。以下の例では２つの変数が説明されるが、空間メタデータを得るために適用される任意の適切な方法が利用可能である。その概念の１つとしては、マイク信号からの空間メタデータ組（周波数帯域における音の方向、残響のような無指向性音の相対音量等）が、マイクオーディオ信号から分析され、空間音の適応型高精度合成を可能とするものが挙げられる。

ＳＰＡＣ方法は、小型デバイスに対してもロバストに利用できる。これには２つの理由がある。第１に、短時間確率的分析が通常利用される点である。すなわち、ノイズの効果が推定時に抑えられる。第２に、通常、音場の知覚的に関連した特性（空間オーディオ再生での最重要関心である）を分析するように設計されている。典型的な相対的特性としては、到来音の方向（複数可）と、そのエネルギーと、無指向性周囲エネルギー量が挙げられる。エネルギーパラメータは、直接−全体比パラメータ、周囲−全体比パラメータ等、多様な表現方法が利用可能である。これらのパラメータは周波数帯域で推定される。上記形態では、これらのパラメータは人間の空間的聴力にとって特に重要なのである。周波数帯域は、バーク幅、等価矩形帯域幅（ＥＲＢ）、あるいはその他の知覚に基づく比線形尺度であってもよい。線形周波数尺度も適用可能だが、その場合は分解能が十分に高く、人の聴覚が最も周波数に敏感な低周波数も網羅できるほどであることが望ましい。

したがって、ＳＰＡＣ分析を利用すれば、例えば、周波数帯域における方向（複数可）、エネルギー比（複数可）のような知覚的に関連した動的空間メタデータが提供できる。ＳＰＡＣ合成は、オーディオ信号を処理して、分析された空間メタデータに応じて、知覚的空間特徴を再生音のために得ることである。例えば、ＳＰＡＣ分析により、ある周波数帯域の音が、ある方向からマイクアレイに到来するという情報が提供された場合、ＳＰＡＣ合成段階で、例えば信号を当該方向に対応する頭部伝達関数（Head-Related Transfer Function：ＨＲＴＦ）に適用してもよい。その結果、その周波数でヘッドホンに再生される音は、実際に音が分析された方向から到来した場合と同様に知覚される。同じ手順を、その他全ての周波数帯域にも（通常は個別に）、ある時間にわたって適応的に適用してもよい。

同様に、多くのＳＰＡＣ分析および合成方法では、合成段階で通常は空間的に分散して再生される残響等の周囲信号が、空間メタデータに応じて適応的に時間単位で、さらに周波数単位で考慮される。

したがって、図１ａ、図１ｂ、図２から図５を参照に説明する例では、ＳＰＡＣ方法が、少なくともいくつかの周波数では、一次球面高調波表現が得られないマイクアレイからの任意の次数の球面高調波信号を適応的に合成するように適用される実施形態が示される。

例えば、上述のように、空間エイリアシングにより、一次球面高調波オーディオ信号の生成が妨げられうる。あるいは、デバイス（例えばスマートフォン）の形状により、デバイスの狭方向軸において、（ＳＮＲによって）実際に利用可能な球面高調波成分の生成が妨げられうる。

本明細書に記載の実施形態では、まず取得されたマイクオーディオ信号から周波数帯域信号を分析することで、空間メタデータ（例えば方向（複数可）、比（複数可））が決定される。

次に、この空間メタデータ情報が、少なくとも１つのマイクアレイ周波数帯域信号からの球面高調波周波数帯域信号の合成時に適用される。

このような実施形態により、ＹｏｕＴｕｂｅのようなチャネルを介して、ＯＺＯ、携帯電話、リコーＴｈｅｔａ型デバイス他の幅広いデバイスに対して空間音再生が可能となりうる。これは従来技術では少なくともいくつかの周波数において実現不能であった。

より詳細に後述するように、ある実施形態において、空間音再生にハイブリッド手法が利用されてもよい。つまり、いくつかの周波数、および／または球面高調波の次数および／または空間軸について、マイクオーディオ信号が線形方法を利用して処理され、その他の周波数および／または球面高調波の次数および／または空間軸については、マイクオーディオ信号は動的（すなわち適応的）処理により処理されるものである。ハイブリッド手法は、例えば線形方法により極めて高品質な球面高調波成分が特定の周波数、および／または特定の球面高調波の次数、および／または特定の空間軸に対してのみ生成可能である場合に有用でありうる。

図１ａに、いくつかの実施形態を実施するに適した例示的オーディオキャプチャおよび処理システム９９を示す。

システム９９は、空間オーディオキャプチャ（ＳＰＡＣ）デバイス１０５をさらに備えてもよい。空間オーディオキャプチャデバイス１０５は、ある実施形態において、例えば音源（複数可）および周囲音により表される音場に対応付けられたオーディオ信号を取得するように構成された指向性マイクアレイまたは全方向性マイクアレイ１４１を備えてもよい。空間オーディオキャプチャデバイス１０５は、取得したオーディオ信号を、プロセッサ兼シンセサイザ１００に出力するように構成されてもよい。

ある実施形態において、空間オーディオキャプチャデバイス１０５は、モバイルデバイス／ＯＺＯ内、またはカメラの有無を問わない任意のデバイス内に実現される。この場合、空間オーディオキャプチャデバイスは、空間オーディオを取得するように構成されており、当該音響は、聴き手に届けられると、聴き手が実際に空間オーディオキャプチャデバイスの所在地に存在するかのように感じられる空間音を体験可能とするものである。

システム９９は、空間オーディオキャプチャデバイス１０５のマイクアレイ１４１の出力を受信するように構成されたプロセッサ兼シンセサイザ１００をさらに備えてもよい。

プロセッサ兼シンセサイザ１００は、空間オーディオキャプチャデバイス１０５の出力を処理（例えば適応的にミキシング）して、その処理信号を、内部保存または他のデバイスへの送信用の球面高調波オーディオ信号として出力する（例えば、復号され、ユーザに届けられる）ように構成されてもよい。典型的には、これは適応的な処理であって、様々な周波数帯域で実施される。

図１ｂは、プロセッサ兼シンセサイザ１００の例をさらに詳細に示す。プロセッサ兼シンセサイザ１００は、オーディオ信号／ストリームを受信するように構成されている。例えば、プロセッサ兼シンセサイザ１００は、（空間オーディオキャプチャデバイス１０５内の）マイクアレイ１４１からオーディオ信号を受信するように構成されてもよい。ある実施形態において、入力は「記録された」または記憶されたオーディオ信号であってもよい。ある実施形態において、音響入力は、サンプリングされたオーディオ信号と、聴き手に対する、音響源または物体の方向または位置を表すメタデータ、または分析ＳＰＡＣメタデータ等のその他の方向パラメータを含んでもよく、その例としては周波数帯域中の方向パラメータおよびエネルギー比パラメータが挙げられる。ある実施形態において、（マイクに対応付けられる音響入力信号を含む）音響入力信号は、利得値等のその他の任意のパラメータ、またはオーディオ信号にかけられる等化フィルタを含んでもよい。

さらにラウドスピーカ信号またはオーディオ物体信号を含むような入力信号であれば、従来の方法で球面高調波信号に処理できる。言い換えると、空間方向（複数可）に応じた球面高調波変換重みを入力チャネル信号にかけるのである。これは直接的な処理であって、各周波数帯域における知覚に基づく空間メタデータ分析に依存するＳＰＡＣ処理とは異なるものである。

プロセッサ兼シンセサイザ１００は、ある実施形態においてフィルタバンク１３１を備える。フィルタバンク１３１は、時間領域マイクオーディオ信号を周波数帯域信号に変換可能とするものである。このように、任意の適切な時間−周波数領域変換がマイク信号に適用されてもよい。ある実施形態において実施可能な典型的なフィルタバンクとしては、分析窓およびＦＦＴを利用した短時間フーリエ変換（Short Time Fourier Transform：ＳＴＦＴ）が挙げられる。ＳＴＦＴ以外の適切な変換としては、複素変調直交ミラーフィルタ（Quadrature Mirror Filter：ＱＭＦ）バンクが挙げられる。フィルタバンクは、時間と周波数に基づいて入力信号の位相と振幅を示す複素数値周波数帯域信号を生成してもよい。フィルタバンクは、均一な周波数分解能を備えてもよく、これにより極めて効率的な信号処理構造が実現可能となる。ただし、人の空間聴力のスペクトル分解能に近い非線形周波数分解能に均一な周波数帯域をグループ化してもよい。

例えば、空間オーディオキャプチャデバイス１０５のマイクアレイ１４１は、Ｍ個のマイクを備える。フィルタバンク１３１は、マイク信号ｘ（ｍ，ｎ'）（式中、ｍおよびｎ'はそれぞれマイクと時間の指標である）を受信し、短時間フーリエ変換により、入力信号を周波数帯域信号に変換してもよい。
Ｘ（ｋ，ｍ，ｎ）＝Ｆ（ｘ（ｍ，ｎ'））
式中、Ｘは変換された周波数帯域信号を、ｋは周波数帯域の指標を、ｎは時間の指標を示す。

これらの信号は、シンセサイザ１３５、さらにアナライザ１３３に出力されてもよい。

ある実施形態において、プロセッサ兼シンセサイザ１００は、フィルタバンク１３１からのオーディオ信号を分析し、録音位置での音場に対応付けられた空間メタデータを決定するように構成されたアナライザ１３３を備える。

ＳＰＡＣ分析（等の技術）を周波数帯域信号（あるいは信号組）に適用して、空間メタデータを得るようにしてもよい。空間メタデータの典型例としては、各周波数間隔および各時間枠での方向（複数可）および全体に対する直接的なエネルギー比（複数可）が挙げられる。例えば、方向パラメータをマイク間遅延分析に基づいて取得することができる。これは、遅延の異なる信号の相互関連を数式化し、最大の相関を発見することで実現されるものである。方向パラメータを取得する別の方法として、音場強度ベクトル分析が挙げられる。これは、指向性オーディオ符号化（Directional Audio Coding：ＤｉｒＡＣ）で適用される処理である。

高い周波数（空間エイリアシング周波数を超える）では、ＯＺＯ等のいくつかのデバイスに対して、デバイス音響陰影を利用して指向性情報を得ることもできる。マイク信号エネルギーは通常、デバイスの、音の多くが到来する側で高いため、エネルギーの情報により方向パラメータの推定が可能である。

アレイ信号処理の分野において、その他多数の到来方向推定方法が存在する。

各時間周波数間隔（言い換えると、エネルギー比パラメータ）での無指向性の周囲音量の推定に、マイク間コヒーレンス分析を利用してもよい。方向パラメータの安定性測定を利用する等、その他の方法でも、比パラメータは推定できる。特定の方法で空間メタデータを取得することは本願の主眼ではない。

本項では、音響入力信号チャネル間の相関に基づく遅延推定を利用した一方法が説明される。この方法では、到来音の方向は、Ｂ周波数領域サブ帯域について個別に推定される。これは、全サブ帯域について、少なくとも１つの方向パラメータを発見するものである。当該パラメータは、実際の音源の方向、または複数の音源の組合せ指向性に近似する方向パラメータでありうる。例えば、方向パラメータは、単一のアクティブな音源に直接向いている場合もあれば、２つのアクティブな音源間で略円弧状に変動する場合もある。室内反響や残響の存在下では、方向パラメータの変動は大きくなりうる。したがって、方向パラメータは、知覚に基づくパラメータと考えられるのである。例えば、いくつかアクティブな音源が存在する場合に、ある時間周波数間隔での１つの方向パラメータが、当該アクティブな音源のいずれにも向いていなかったとしても、当該パラメータは録音位置での空間音の主な指向性に近似するのである。比パラメータと共に、この指向性情報は、複数の同時にアクティブな音源の組合せ知覚空間情報を大まかに取得する。当該分析は、各時間周波数間隔で実施され、これにより音の空間態様が知覚的に取得される。方向パラメータは、極めて高速に変動し、録音位置で音のエネルギーがいかに変動するかを表す。これが聴き手に対して再生され、聴き手の聴覚系により空間が知覚される。いくつかの時間周波数の場合、１つの音源が極めて突出し、指向性推定がその方向を正確に示すこともある。しかしこれは一般的状況とは言えない。

周波数帯域信号表現は、Ｘ（ｋ，ｍ，ｎ）で表されうる。ここで、ｍはマイク指標で、ｋは周波数帯域指標｛ｋ＝０，…，Ｎ−１｝で、Ｎは時間周波数変換された信号の周波数帯域の数である。周波数帯域信号表現は、Ｂサブ帯域にグループ化される。各帯域は、低周波数帯域指標

と高周波数帯域指標

を有する。サブ帯域

の幅は、例えば等価矩形帯域幅（Equivalent Rectangular Bandwidth：ＥＲＢ）という尺度やバーク尺度に近似しうる。

方向解析は、以下の動作を特徴としてもよい。この場合、我々は３つのマイクを有する、平坦なモバイルデバイスを想定する。この構成は、水平面における方向パラメータ、比パラメータ等の分析を実現可能である。

まず、２つのマイク信号で水平方向の推定が実施される（本例では、キャプチャデバイスの水平面で、デバイスの互いに反対縁に配置されたマイク２および３）。２つの入力マイクオーディオ信号について、それらのチャネルの周波数帯信号間の時間差が推定される。これは、サブ帯域ｂについての、２つのチャネル間の相関が最大となる遅延τ_ｂを探すことが目的である。

周波数帯域信号Ｘ（ｋ，ｍ，ｎ）は、以下によりシフトされたτ_ｂ時間領域サンプルでありうる。

式中、

は帯域ｋの中央周波数で、

はサンプリングレートである。ここから、以下のとおりにサブ帯域ｂおよび時間指標ｎに対する理想的な遅延が求められる。

式中、Ｒｅは結果の実数部であり、＊は複素共役であり、

はサンプルにおける最大遅延である。最大遅延は分数であってもよく、マイク対により定まる軸で正確に音が到来する場合に発生する。上述では、１つの時間指標ｎでの遅延推定の例が示されるが、ある実施形態においては、遅延パラメータは複数の指標ｎにわたって推定されてもよい。これは、該当する軸で推定を平均化または加算することで実現される。多くのスマートフォンの場合、τ_ｂに対して約１つのサンプルが、遅延の探索に十分である。さらに、相関以外の、知覚に基づく同様の測定値も利用できる。

「音源」は、マイクが拾うオーディオエネルギーを表すもので、したがってアレイにおけるマイク（例えば第２マイク）で受信される例示的時間領域関数で表されるイベントと、第３のマイクで受信される同じイベントを作り出すものと考えられる。理想的な状況としては、アレイの第２のマイクで受信される例示的時間領域関数が、単純に第３のマイクで受信される関数を時間シフトしたものとなる。この状況が理想的である理由は、現実では２つのマイクが、例えば、それらによるイベントの記録が、強め合うまたは弱め合う干渉や、イベントからの音を遮蔽または増幅する要素により影響されるような、異なる環境に置かれることが多いためである。

シフト値τ_ｂは、音源が第３のマイクよりも第２のマイクにどれ程近いかを示すτ_ｂが正であれば、音源は第３のマイクよりも第２のマイクに近い）。−１と１の間で正規化される遅延は、以下のように数式化できる。

音が水平面で到来する平面波だと仮定すると、基本的な幾何学を利用して、到来音の水平角は次のものに等しいと判定できる。

なお、２つのマイクだけでは正確な方向が判定できず、音の到来方向については２つの可能性が存在する。例えば、デバイスの前後で、鏡面対称の角度にある音源からは、同一のマイク間遅延推定が生じうる。

そこで、例えば３つのマイクのアレイにおける第１のマイクのようなさらなるマイクを利用して、いずれの符号（＋または−）が正しいかを定義できる。この情報は、いくつかの構成では、一方（例えば第１のマイク）がスマートフォンの後側に配され、他方（例えば第２のマイク）がスマートフォンの前側に配されたマイク対間の遅延パラメータを推定することで、この情報が得られうる。このデバイスの細軸での分析は、高ノイズにより、信頼できる遅延推定が生成されない場合もありうる。ただし、デバイスの前側または後側で最大相関が確認された場合、一般的傾向はロバストでありうる。この情報があれば、２つの反対の方向による不明瞭さは解消できる。不明瞭さを解消する別の方法を適用してもよい。

同じ推定を各サブ帯域に対して繰り返してもよい。

同等の方法を、「水平」および「垂直」に変位があるようなマイクアレイにも適用できる。これによって、方位角と仰角とが決定できる。マイクが４つ以上（上述の方向に対して直交する面において互いにずれている）のデバイスまたはスマートフォンの場合、仰角分析も実施可能である。その場合、例えば遅延分析の数式化をまず水平面で実行し、その後垂直面で実行してもよい。次に、２つの遅延推定から、推定到来方向を求めることができる。例えば、ＧＰＳ測位システムと同様の、遅延による位置分析を実行してもよい。この場合でも、指向性の前後の不明瞭さは例えば上述のように解消されうる。

ある実施形態において、無指向性音および指向性音の相対比率を表す比メタデータは以下の方法で生成されてもよい。
１）互いの距離が最大の複数のマイクについて、最大相関遅延値と、対応する相関値ｃが数式化される。相関値ｃは、正規化された相関を示し、１は完全相関信号を表し、０は一致しない信号を表す。
２）各周波数について、拡散場相関値（ｃ_ｄｉｆｆ）は、マイク距離に応じて数式化される。例えば、高周波数では、

となる。低周波数では、０以外の値となりうる。
３）相関値を正規化して、比パラメータを得る。比＝（ｃ−ｃ_ｄｉｆｆ）／（１−ｃ_ｄｉｆｆ）

得られた比パラメータを０と１の間で切り捨て、切り上げる。このような推定方法によると、

上述の単純な数式化により、比パラメータの近似が得られる。極端な場合（完全指向性および完全無指向性の音場状況）では、推定は真となる。極端な場合の間の比推定は、音の到来角に応じてある程度バイアスがかかりうる。それでも、上述の数式は、それら状況にあっても実践的に十分な精度が確認された。指向性および比パラメータを生成する別の方法（または、適用される分析技術に応じたその他の空間メタデータ）を適用してもよい。

ＳＰＡＣ分析の分野における上述の方法は、主にスマートフォンのような平坦なデバイスを対象としている。デバイスの細軸は、前後の二者択一のみに適するように決定される。これは、より正確な空間分析が、当該軸についてはロバストではないためである。空間メタデータは、上述の遅延／相関分析、したがって指向性推定を利用して、主にデバイスの長い方の軸で分析される。

空間メタデータのさらなる推定方法を以下に説明する。これは２つのマイクチャネルの実質的な最小値による例である。指向性パターンの異なる２つの指向性マイクが、例えば２０ｃｍ離して配置されてもよい。上述の方法と同様、マイク組遅延分析により、２つの水平到来方向候補が推定できる。前後の不明瞭さをマイクの指向性により解消できる。すなわち、一方のマイクが前方に減衰が大きく、他方のマイクが後方に減衰が大きい場合、例えばマイク周波数帯域信号の最大エネルギーを測定することで、前後の不明瞭さが解消できる。比パラメータは、例えば上述と同様の方法により、マイク対間の相関分析を利用して推定できる。

その他の空間オーディオキャプチャ方法も、空間メタデータを得るのに適切でありうることは明らかである。具体的には、球面デバイス等の非平坦デバイスに対しては、例えば、パラメータ推定のロバスト性の向上が実現されることによるもの等、その他の方法が適切でありうる。文献に記載のよく知られた例は、ＤｉｒＡＣである。これは典型的には以下の工程を含むものである。

１）一次球面高調波信号に等しいＢフォーマット信号が取得される。
２）複数の周波数帯域において、音場強度ベクトルと、音場エネルギーとがＢフォーマット信号から推定される。
ａ．強度ベクトルは、Ｗ（ゼロ次）信号と、Ｘ，Ｙ，Ｚ（一次）信号との短時間相互相関推定により得られる。到来方向は音場強度ベクトルと逆方向である。
ｂ．音場強度と音場エネルギーの絶対値から、拡散性（すなわち、周囲−全体比）パラメータが推定できる。例えば、強度ベクトルの長さが０であれば、拡散性パラメータは１となる。

したがって、一実施形態において、ＤｉｒＡＣパラダイムによる空間分析を適用して、空間メタデータを生成でき、最終的に球面高調波信号の合成が可能となる。言い換えると、方向パラメータと、比パラメータとは、いくつかの異なる方法により推定できる。

ＤｉｒＡＣ分析における上述の処理工程をさらに明らかにするため、実施形態全体での、入力Ｂ−フォーマット（すなわち、球面高調波またはアンビソニックフォーマット）信号と、再生される出力球面高調波信号との違いを明らかにしたい。入力Ｂ−フォーマット信号は、例えばコンパクトなマイクアレイで取得された場合に、Ｘ，Ｙ，Ｚ要素について、低周波数で多大なノイズを含みうる。ただし、メタデータは短期間確率的推定で分析されることから、このノイズがＤｉｒＡＣ空間メタデータ分析に与える影響はわずかである。特に、確率的分析により、推定値におけるノイズの効果は抑えられる。したがって、ＤｉｒＡＣ分析技術を利用した実施形態では、１）方向パラメータがロバストに推定され、２）球面高調波出力信号が利用可能な高ＳＮＲＷ−信号（ゼロ次信号）を利用して合成されうる。したがって、出力球面高調波信号は、入力球面高調波信号よりもフィデリティが高く知覚されうる。

ある実施形態において、プロセッサ兼シンセサイザ１００は、シンセサイザ１３５を備える。シンセサイザ１３５は、周波数帯域信号表現と空間メタデータとを受信し、球面高調波信号を生成するように構成されてもよい。シンセサイザ１３５について、図２から図５に示す例を参照にさらに詳述する。ある実施形態において、球面高調波周波数帯域信号が逆フィルタバンク１３７に出力される。シンセサイザ１３５は、図１ｂに示すように完全に周波数領域で動作してもよいし、以下の図２に示す例等のようなある実施形態においては、周波数帯域領域で部分的に動作し、時間領域で部分的に動作してもよい。例えば、シンセサイザ１３５は、逆フィルタバンク１３７に周波数帯域領域信号を出力する第１の、すなわち周波数帯域領域部と、逆フィルタバンク１３７から時間領域信号を受信し、適切な時間領域球面高調波信号を出力する第２の、すなわち時間領域部を備えてもよい。

ある実施形態において、プロセッサ兼シンセサイザ１００は、逆フィルタバンク１３７を備える。逆フィルタバンク１３７は、生成された球面高調波周波数帯域信号を受信し、これらの信号に周波数−時間領域変換をかけて、球面高調波信号の時間領域表現を生成してもよい。

図２に、シンセサイザ１３５の第１の例を示す。この例示的シンセサイザは、空間メタデータがＳＰＡＣ分析から利用可能で、まず中間仮想マルチチャネルラウドスピーカ信号（例えば三次元球を網羅する１４個の仮想ラウドスピーカチャネル）を合成し、この信号に球面高調波変換を適用するように構成されている。

したがって、シンセサイザ１３５は指向性ディバイダ２０１を備えてもよい。指向性ディバイダ２０１は、オーディオ信号の指向性要素に対応付けられた周波数帯域表現と比値とを受信するように構成されてもよい。指向性ディバイダ２０１は、オーディオ信号の指向性および無指向性（あるいは周囲）部分を生成するべく、各帯域に比値を適用してもよい。例えば、比パラメータに基づく乗算子を数式化して、入力周波数帯域信号にかけて指向性および無指向性部分を生成してもよい。指向性部分は振幅パンニングシンセサイザ２０３に送られ、無指向性部分は脱相関シンセサイザ２０５に送られてもよい。

シンセサイザ１３５は、振幅パンニングシンセサイザ２０３をさらに備えてもよい。振幅パンニングシンセサイザ２０３は、オーディオ信号の指向性部分を受信し、空間メタデータの指向性情報部分をさらに受信し、これらから「仮想」ラウドスピーカ信号を生成または合成するように構成されている。ある実施形態において、１４個の「仮想」ラウドスピーカチャネルが三次元空間に配される。１４個のチャネルは、６チャネルが水平面、それぞれ４チャネルが当該平面の上下に存在するように配される。ただし、これは一例に過ぎず、これ以外の仮想ラウドスピーカチャネルの数や配置も可能である。

振幅パンニングシンセサイザは、例えばベクトルに基づく振幅パンニング（Vector-Base Amplitude Panning：ＶＢＡＰ）を適用して、各周波数帯域で、空間メタデータにより決定された方向での音の、直接部分を再生できる。この後、仮想ラウドスピーカ信号はコンバイナ２０７に出力されてもよい。仮想ラウドスピーカ信号はＶＢＡＰで生成されうるが、その適切な仮想チャネル信号生成方法も利用できる。「仮想」という言葉は、ラウドスピーカ信号が中間的表現であることを示している。

シンセサイザ１３５は、脱相関シンセサイザ２０５をさらに備えてもよい。脱相関シンセサイザ２０５は、オーディオ信号の無指向性部分を受信し、仮想ラウドスピーカ信号内で組み合わせるための周囲または無指向性要素を生成するように構成されてもよい。例えば、周囲部分を、脱相関部を利用して合成し、音のエネルギーを仮想ラウドスピーカの全てまたは多くに広げるようにしてもよい。周囲部分は、コンバイナ２０７に出力してもよい。

シンセサイザ１３５は、コンバイナ２０７をさらに備えてもよい。コンバイナ２０７は、仮想ラウドスピーカ信号と周囲部分とを受信し、仮想ラウドスピーカ配置を利用した組み合わされた指向性−周囲表現を生成するように構成されてもよい。組合せ仮想ラウドスピーカ周波数帯域表現は、逆フィルタバンク１３７に送られてもよい。

この構成で、逆フィルタバンク１３７は、仮想ラウドスピーカ表現に対応付けられた時間領域信号を球面高調波変換部２０９に送ってもよい。

シンセサイザ１３５は、球面高調波変換部２０９をさらに備えてもよい。球面高調波変換部２０９は、仮想ラウドスピーカ表現に対応付けられた時間領域信号を受信し、任意の公知の方法で仮想ラウドスピーカ信号を球面高調波成分に変換するように構成されてもよい。例えば、各仮想ラウドスピーカ信号が重み付けされ（特定の重み付けによる）、各球面高調波出力に出力される。重みは、広帯域信号に適用可能である。重みは、仮想ラウドスピーカの方位角および仰角に基づいて数式化される。

図２に示す例では、球面高調波変換が時間領域で生成されているが、ある実施形態において、球面高調波変換は周波数領域（または周波数帯域領域）で適用されることが理解されよう。言い換えると、球面高調波変換部２０９は周波数帯域信号変換部であって、逆フィルタバンク１３７の前段、コンバイナ２０７の後段に配置される。本例では、周波数帯域信号に重みがかけられる。

図３に、シンセサイザ１３５の第２の例を示す。本例では、球面高調波信号は直接、すなわち中間仮想ラウドスピーカレイアウト表現を介さずに、合成可能である（空間メタデータを利用する）。

このため、シンセサイザ１３５は指向性ディバイダ３０１を備えてもよい。指向性ディバイダ３０１は、オーディオ信号の指向性要素に対応付けられた周波数帯域表現と比値とを受信するように構成されてもよい。指向性ディバイダ１３５は、オーディオ信号の指向性および無指向性（あるいは周囲）部分を生成するべく、各帯域に比値を適用してもよい。指向性部分は移動音源シンセサイザ３０３に送られ、無指向性部分は脱相関シンセサイザ３０５に送られてもよい。

シンセサイザ１３５は、移動音源シンセサイザ３０３をさらに備えてもよい。移動音源シンセサイザ３０３は、オーディオ信号の指向性部分を受信し、空間メタデータの指向性情報部分をさらに受信し、これらから、方向解析に基づいてモデル化された移動音源に対応付けられた球面高調波変換重みを生成するように構成されている。例えば、オーディオ信号の指向性部分（複数可）は、仮想移動音源（複数可）と考えられる。方向メタデータは、移動音源の方向を決定し、エネルギーに関するメタデータ（例えば比パラメータ）は、当該方向で再生されるエネルギーの量を決定する。ある実施形態において、聴覚的に感知可能な出力の唐突な変動が抑えるべく、指向性推定は平滑化される（例えば、時間または周波数帯域にわたってローパスフィルタがかけられる）。したがって、仮想音源の位置は、各周波数帯域信号の全ての時間インスタンで変化する可能性があるのである。仮想移動音源の方向は周波数に基づいて変動しうるため、各周波数帯域で個別に球面高調波変換が実行され、ここでは時間および周波数適応型の球面高調波重みが生成され、オーディオ信号と共に球面高調波変換部３０６送られることが可能である。

ある実施形態において、シンセサイザ１３５は、決定された重みと、オーディオ信号とを受信し、周波数帯域球面高調波信号の指向性部分を生成するように構成された球面高調波変換部３０６を備える。周波数帯域球面高調波信号の指向性部分は、コンバイナ３０７に送られてもよい。ある実施形態において、移動音源シンセサイザ３０３および球面高調波変換部３０６の動作は、単一の動作またはモジュールで実行されてもよい。

シンセサイザ１３５は、脱相関シンセサイザ３０５をさらに備えてもよい。脱相関シンセサイザ３０５は、信号エネルギーの周囲部分を直接的に合成するように構成されてもよい。これは、球面高調波信号の定義として、理想的な周囲または分散音場、例えば残響が互いに一致しないために実現可能なのである。したがって、入力マイク周波数帯域信号を脱相関することで、周囲部分を合成し、不一致な球面高調波周波数帯域信号が得られる。これらの信号は、各球面高調波係数に対する重みで重み付けされうる。これらの球面高調波係数に基づく重みは、球面高調波の次数に基づく量であって、適用される正規化方式に依存する。例示的正規化方式としては、周囲について球面高調波（ＳＨ）の次数がそれぞれ合計では同一の信号エネルギーとなるものが挙げられる。すなわち、ゼロ次が１単位のエネルギーであれば、３つの一次ＳＨ信号はそれぞれ１／３単位のエネルギーを備え、５つの二次ＳＨ信号は１／５単位のエネルギーを備え、以下同様となる。周囲部分は、さらにコンバイナ３０７に出力されてもよい。正規化方式は周囲部分だけではなく、直接信号部分に対する球面変換係数の数式化の一部として、同様の重み付けが含まれうる。

シンセサイザ１３５は、さらにコンバイナ３０７を備えてもよい。コンバイナ３０７は、直接的に決定された球面高調波信号の周囲および指向性部分を受信し、これらを組み合わせて組合せ周波数領域球面高調波信号を生成するように構成されてもよい。この組み合わされた球面高調波周波数帯域表現は逆フィルタバンク１３７に送られてもよい。

この構成では、逆フィルタバンク１３７は時間領域球面高調波表現を出力する。

図４に、シンセサイザ１３５の第３の例を示す。本例では、最小二乗最適化手法等の最適ミキシング技術を利用して、周波数帯域における空間メタデータおよびマイク信号に基づき球面高調波信号を生成する。これは上述の例と、下記の点で異なる。
・仮想音源（移動、固定のいずれも）は適用されない。
・直接および周囲部分が、同一の工程で合成される、すなわち別々に合成されない。

シンセサイザ１３５は、短時間確率的アナライザ４０３を備えてもよい。短時間確率的アナライザ４０３は、周波数帯域マイク信号の共分散行列を決定するべく、周波数領域表現を受信し、短時間確率的分析を実行するように構成されている。この共分散行列は、最小二乗最適化行列生成部４０５に送られてもよい。

シンセサイザ１３５は、対象確率的特性決定部４０１を備えてもよい。対象確率的特性決定部４０１は、空間メタデータと、短時間確率的分析で得られた周波数帯域エネルギー情報全体に基づいて、球面高調波信号に対する目的の共分散行列を決定するように構成されてもよい。球面高調波信号に対する目的の対象共分散行列は、まず空間メタデータで決定される方向に対応する直接エネルギー部分に対する共分散行列を数式化し、次に周囲（または無指向性）エネルギー部分に対する共分散行列を数式化し、これら行列を組み合わせて目的の対象共分散行列を形成することで得られる。周囲部分共分散行列は、対角行列であって、周囲の球面高調波信号が互いに不一致であることを表す。対角係数の相対的エネルギーは、前述のように正規化手法に応じたものである。同様に、直接部分共分散行列は、分析による空間メタデータに応じた球面高調波重み（正規化方式に影響される）を使用して数式化される。

この対象特性が、最小二乗最適化行列生成部４０５に送られてもよい。

最小二乗最適化行列生成部４０５は、短時間確率的アナライザ４０３からの確率的推定と、特性決定部４０１からの対象特性を取得し、最小二乗（またはその他の適切な最適化）方法を適用して、信号ミキサおよび脱相関部４０７に送られうる適切なミキシング係数を決定してもよい。言い換えると、例示的形態では、周波数帯域マイク信号に対する短時間確率的（共分散行列）分析が実行され、球面高調波出力信号に対する目的の対象共分散行列が数式化され、最小二乗最適化行列生成部４０５を利用して少なくともこの２つの行列に基づいて、処理利得が取得される（例えば、米国特許出願公開２０１４／０２３３７６２Ａ１号に開示の方法または同様の方法を利用する）。得られた処理利得は、信号ミキサおよび脱相関部４０７により適用される重み付け値として利用される。

このように、これらの実施形態は、マイク信号からの球面高調波信号の合成に利用できる。信号ミキサおよび脱相関部４０７の出力は、逆フィルタバンク１３７に送られる。

この構成では、逆フィルタバンク１３７は、時間領域球面高調波表現を出力してもよい。

上述のように、ある実施形態において、ハイブリッド手法が実施できる。すなわち、装置のいくつかの周波数では従来の線形方法が利用され、その他の周波数では上述のＳＰＡＣ方法が利用されて、球面高調波成分が求められる。例えば、ノキアＯＺＯデバイス線形方法を利用して、約２００〜１，５００Ｈｚの周波数において一次までの球面高調波を求め、その他の周波数でＳＰＡＣ方法を利用してもよい。

図５に、ハイブリッド構成の例示的ブロック図を示す。

本例では、システムは周波数帯域ルーター５０１を備えてもよい。これは、周波数帯域表現のいくつかを適応型球面高調波信号生成部またはシンセサイザ５０５（図２から図４に示す例示的適応型高調波信号シンセサイザ１３５のいずれかであってもよい）に導き、周波数帯域表現のいくつかを線形球面高調波信号生成部５０３に導くように構成されてもよい。

適応型球面高調波信号生成部またはシンセサイザ１３５、および線形球面高調波信号生成部５０３の出力が、コンバイナ５０７に送られ、コンバイナ５０７は組み合わされた球面高調波オーディオ信号表現を逆フィルタバンク１３７に出力する。適応型および線形処理のレイテンシが異なる場合、この組み合わせることには、信号を時間的に合わせる必要がありうる。

言い換えると、周波数帯域の一部が適応型方法で処理され、その他の周波数帯域は線形方法で処理される。

ある実施形態において、図５に示すハイブリッド手法が、オーディオ信号の周波数分割に代わってまたはこれと共に、空間分割に適用されてもよい。したがって、当該実施形態において、線形方法を利用して球面高調波のいくつかの低次のものを得るようにして、上述の合成のような適応型ＳＰＡＣ系方法を利用して、球面高調波のより高次のものを求めるようにしてもよい。例えば、ノキアＯＺＯデバイスでは、約２００〜１，５００Ｈｚで線形手法を利用して、ゼロ次および一次球面高調波を求め、ＳＰＡＣ手法を利用して、二次球面高調波以上を合成してもよい。

ある実施形態において、適応型シンセサイザと、線形方法シンセサイザとを順次機能するようにしてもよい。例えば、２００〜１，５００Ｈｚで装置はまず一次球面高調波信号を生成し、この一次球面高調波信号に基づいて、当該技術で公知の適応型方法により高次の信号を合成し、あるいは空間エイリアシング周波数（ＯＺＯでは〜１，５００Ｈｚ）では本明細書に記載の適応型方法を適用してもよい。中間一次信号表現をいくつかの周波数で生成すること（したがって従来技術を利用することは）が任意の工程として実施されてもよい。

本明細書記載の任意の実施形態において、生成された球面高調波信号は任意の（所定の）次数であってもよい。一次、二次、三次、またはさらに高次の高調波が可能である。さらに、複数の次数が混じった出力も可能であることが理解されよう。例えば、場合によっては、いくつかの次数に対する全ての球面高調波出力信号が処理されるわけではない。一例として、垂直方向よりも水平方向で、より高い次数の球面高調波表現が好ましい場合もありうる。そのような使用事例の１つとして、多くが水平式のラウドスピーカであるラウドスピーカ設定に対して球面高調波信号が復号することが知られている場合が挙げられる。

ある実施形態において、デバイスの空間軸に基づいて、ハイブリッド手法を適用してもよい。したがって例えば、不規則アレイを有する携帯電話は、異なる軸で異なる寸法を有する。したがって、ハイブリッド手法は、異なる軸間で異なるように適用されてもよいし、軸の一部でのみ利用されてもよい。例えば、スマートフォンの幅軸で、一部の周波数で線形方法を利用して一次球面高調波信号を求め、一方スマートフォンの細軸ではＳＰＡＣ方法がゼロ次を越える全ての球面高調波信号の次数で適用される。

ハイブリッド手法が適用される一般的動機としては主に、線形方法の簡潔性によるものである。線形方法では典型的な広帯域用のマイクアレイに適用できず、高次ＳＨ係数を生成することはできないが、その典型的な動作範囲では、ロバストで、計算負荷が軽くなりうる。したがって、デバイスによってはハイブリッド手法が好ましい構成となりうる。

ハイブリッド手法は、あらゆる時間またはスペクトルアーチファクトを排するため、時間および／または位相について、線形および非線形信号要素の間の整合を取る必要がありうる。これは、線形方法は、適応型方法と比してレイテンシが異なり、典型的には小さいためである。

ある実施形態において、空間メタデータはマイクアレイの少なくとも２つのマイク信号に基づいて分析されてもよく、同じアレイにおけるメタデータおよび少なくとも１つのマイク信号に基づいて球面高調波信号の空間的合成がなされてもよい。例えば、スマートフォンの場合、メタデータ分析に全てまたは一部のマイクを利用してもよい。例えば、球面高調波信号の合成に前側マイクのみを利用してもよい。ただし、ある実施形態において、分析に利用されるマイクが、合成に利用されるマイクと異なっていてもよいことが理解されよう。マイクは、異なるデバイスの一部であってもよい。例えば、冷却ファン付きの存在キャプチャデバイスのマイク信号に基づいて空間メタデータ分析が実行されてもよい。メタデータが得られても、これらのマイク信号は例えばファンのノイズにより、フィデリティが低くなりうる。そのような場合、存在キャプチャデバイスの外部に１つ以上のマイクが配置されてもよい。これら外部マイクからの信号は、存在キャプチャデバイスからのマイク信号を利用して得られた空間メタデータに応じて処理されてもよい。

マイク信号を得るのに利用できる構成は様々存在する。

なお、本明細書に記載のマイク信号は、事前処理されたマイク信号であってもよいことが理解されよう。例えば、マイク信号は、デバイスの実際のマイク信号を適応的または非適応的に組み合わせたものであってもよい。例えば、互いに近接して設けられたいくつかのマイクカプセルを組み合わせて、ＳＮＲが向上した信号を得るようにしてもよい。

マイク信号は、適応的または非適応的な等化のような事前処理がなされてもよいし、ノイズ除去処理されてもよい。さらに、ある実施形態において、マイク信号はビームフォーム信号であってもよい。言い換えると、２つ以上のマイク信号を合成することで得られた空間キャプチャパターン信号である。

なお、本明細書に記載の方法に応じた処理用に、マイク信号を得るためのため、多様な構成、デバイス、手法が存在することが理解されよう。

ある実施形態において、マイクまたはオーディオ信号は１つのみで、対応付けられた空間メタデータは事前に分析されてもよい。例えば、少なくとも２つのマイクを利用して空間メタデータを分析した後、マイク信号の数を減らして、例えば１つのみのチャネルで送信、または記憶されてもよい。そのような例示的構成において、送信後、デコーダが１つのみオーディオチャネルおよび空間メタデータを受信し、本明細書に記載の方法で球面高調波信号の空間的合成を実行する。明らかに、２つ以上のオーディオ信号が送信されてもよく、その場合に、事前に分析されたメタデータが球面高調波信号の適応型合成に適用されてよいことは明らかである。

ある実施形態において、空間メタデータは少なくとも２つのマイク信号から分析され、メタデータが少なくとも１つのオーディオ信号と共に遠隔受信部に送信されるか、記憶される。言い換えると、オーディオ信号と、空間メタデータとが、球面高調波信号フォーマットと異なる中間フォーマットで記憶または送信されてもよい。例えば、このフォーマットは球面高調波信号フォーマットよりも低いビットレートを特徴とするものであってもよい。少なくとも１つの送信または記憶されるオーディオ信号は、同じく空間メタデータが得られた同じマイク信号に基づいてもよいし、あるいは音場におけるその他のマイクからの信号に基づいてもよい。デコーダでは、中間フォーマットは球面高調波信号フォーマットにトランスコードされ、ＹｏｕＴｕｂｅのようなサービスとの互換性が実現されてもよい。言い換えると、受信部またはデコーダでは、少なくとも１つの送信または記憶オーディオチャネルが、対応付けられた空間メタデータを利用して、本明細書に記載の方法で球面高調波オーディオ信号表現に処理されてもよい。ある実施形態において、オーディオ信号（複数可）は、送信または記憶時に、例えばＡＡＣで符号化されてもよい。ある実施形態において、空間メタデータは量子化、符号化、さらに／あるいはＡＡＣビットストリームに埋め込まれてもよい。ある実施形態において、ＡＡＣ他で符号化されたオーディオ信号と空間メタデータが、ＭＰ４メディアコンテナのようなコンテナに埋め込まれてもよい。ある実施形態において、例えばＭＰ４のようなメディアコンテナは、符号化球面パノラマビデオストリームのようなビデオストリームを含んでもよい。オーディオ信号と対応付けられた空間メタデータを送信、記憶するその他多くの構成が存在する。

オーディオ信号および空間メタデータを送信または記憶するために適用された方法に関わらず、受信部（またはデコーダかプロセッサ）では、本明細書に記載の方法は、空間メタデータと少なくとも１つのオーディオ信号とに基づいて適応的に球面高調波信号を生成する手段となる。言い換えると、本明細書に提示の方法の場合、オーディオ信号および／または空間メタデータが、例えば符号化、送信／記憶および復号により、マイク信号から直接的に得られたか、間接的に得られたかは実際に無関係である。図６に、プロセッサ兼シンセサイザ１００の少なくとも一部、またはシステム９９の一部として利用可能な電子デバイス１２００の例を示す。このデバイスは、任意の適切なデバイスまたは装置であってもよい。例えばある実施形態において、デバイス１２００は仮想または拡張現実キャプチャデバイス、モバイルデバイス、ユーザ端末、タブレットコンピュータ、コンピュータ、オーディオ再生装置等である。

デバイス１２００は、マイクアレイ１２０１を備えてもよい。マイクアレイ１２０１は、複数（例えばＭ個）のマイクを備えてもよい。ただし、マイクは任意の適切な構成であってもよいし、任意の適切な数のマイクを利用してもよい。ある実施形態において、マイクアレイ１２０１は装置から分離しており、オーディオ信号は有線または無線接続を介して装置に送られる。マイクアレイ１２０１は、ある実施形態において、図１ａに示すようなＳＰＡＣマイクアレイ１４４であってもよい。

マイクは、音波を適切な電気的オーディオ信号に変換するように構成されたトランスデューサであってもよい。ある実施形態において、マイクはソリッドステートマイクであってもよい。言い換えると、マイクはオーディオ信号を取得して、適切なデジタル形式の信号を出力可能であってもよい。別の実施形態において、マイクまたはマイクアレイ１２０１は任意の適切なマイクまたはオーディオキャプチャ手段を含み入る。例としては、コンデンサマイク、キャパシタマイク、静電マイク、エレクトレットコンデンサマイク、ダイナミックマイク、リボンマイク、カーボンマイク、圧電マイク、または微小電気機械システム（Microelectrical-Mechanical System：ＭＥＭＳ）マイクが挙げられる。このマイクはある実施形態において、オーディオキャプチャされた信号をＡ／Ｄコンバータ（ＡＤＣ）１２０３に出力可能である。

デバイス１２００は、Ａ／Ｄコンバータ１２０３をさらに備えてもよい。Ａ／Ｄコンバータ１２０３は、マイクアレイ１２０１における各マイクからのオーディオ信号を受信し、それを処理に適した形式に変換するようにさらに構成されてもよい。ある実施形態において、マイクが一体型マイクであれば、Ａ／Ｄコンバータは不要である。Ａ／Ｄコンバータ１２０３は、任意の適切なＡ／Ｄ変換または処理手段であってもよい。Ａ／Ｄコンバータ１２０３は、オーディオ信号のデジタル表現を、プロセッサ１２０７またはメモリ１２１１に出力するように構成されてもよい。

ある実施形態において、デバイス１２００は、少なくとも１つのプロセッサまたはＣＰＵ１２０７を備える。プロセッサ１２０７は様々なプログラムコードを実行するように構成できる。実行されるプログラムコードは、例えば本明細書に記載のＳＰＡＣ、分析、合成を含んでもよい。

ある実施形態において、デバイス１２００はメモリ１２１１を備える。ある実施形態において、少なくとも１つのプロセッサ１２０７がメモリ１２１１に接続される。メモリ１２１１は、任意の適切な記憶手段であってもよい。ある実施形態において、メモリ１２１１は、プロセッサ１２０７で実行可能なプログラムコードを記憶するためのプログラムコード部を備える。さらに、ある実施形態において、メモリ１２１１は、データ（例えば、本明細書に記載の実施形態のとおりに処理されたまたは処理されるデータ）を記憶するための記憶データ部をさらに備えてもよい。プログラムコード部内に記憶された、実行されたプログラムコードと、記憶データ部内に記憶されたデータとは、必要に応じてプロセッサ１２０７がメモリ−プロセッサ接続を介して取得できる。

ある実施形態において、デバイス１２００はユーザインタフェース１２０５を備える。ある実施形態において、ユーザインタフェース１２０５は、プロセッサ１２０７に接続可能である。ある実施形態において、プロセッサ１２０７は、ユーザインタフェース１２０５の動作を制御して、ユーザインタフェース１２０５からの入力を受信可能である。ある実施形態において、ユーザインタフェース１２０５はユーザに、例えばキーパッドを介してデバイス１２００に対してコマンドを入力可能とするものである。ある実施形態において、ユーザインタフェース１２０５はユーザに、デバイス１２００から情報を取得可能とする。例えば、ユーザインタフェース１２０５は、デバイス１２００からの情報をユーザに表示するように構成されたディスプレイを備えてもよい。ある実施形態において、ユーザインタフェース１２０５はタッチスクリーンまたはタッチインタフェースを備えてもよい。これらはデバイス１２００への情報の入力と、デバイス１２００のユーザへの情報の表示の両方を実現可能である。

実施形態によっては、デバイス１２００は送受信部１２０９を備える。当該実施形態において、送受信部１２０９はプロセッサ１２０７に接続されて、別の装置または電子デバイスと、例えば無線通信ネットワークを介して通信可能とするように構成される。送受信部１２０９または任意の適切な送受信部または送信および／または受信手段は、ある実施形態において、有線または無線接続を介して別の電子デバイスまたは装置を通信するように構成されてもよい。

送受信部１２０９はさらなる装置と、任意の適切な公知の通信プロトコルにより通信可能である。例えばある実施形態において、送受信部２０９または送受信手段は、好適なユニバーサル移動体通信システム（Universal Mobile Telecommunications System：ＵＭＴＳ）プロトコル、例えばＩＥＥＥ８０２．Ｘ等の無線ローカルエリアネットワーク（Wireless Local Area Network：ＷＬＡＮ）プロトコル、Ｂｌｕｅｔｏｏｔｈ（登録商標）等の好適な短距離無線周波数通信プロトコル、または赤外線通信経路（Infrared Data communication pathway：ＩＲＤＡ）を用いうる。

ある実施形態において、デバイス１２００はさらにシンセサイザ装置として利用されてもよい。そのため、送受信部１２０９は、オーディオ信号を受信し、位置情報や比等の空間メタデータを決定し、適切なコードを実行するプロセッサ１２０７を利用して、適切なオーディオ信号レンダリングを生成するように構成されてもよい。デバイス１２００は、Ｄ／Ａコンバータ１２１３を備えてもよい。Ｄ／Ａコンバータ１２１３は、プロセッサ１２０７および／またはメモリ１２１１に接続されて、（本明細書記載のオーディオ信号のオーディオレンダリング後、プロセッサ１２０７からの）オーディオ信号のデジタル表現を、オーディオサブシステム出力を介して提供するのに適した、適切なアナログ形式に変換するように構成されてもよい。Ｄ／Ａコンバータ（ＤＡＣ）１２１３または信号処理手段は、ある実施形態において、任意の適切なＤＡＣ技術であってもよい。

さらに、デバイス１２００は、ある実施形態において、オーディオサブシステム出力１２１５を備えてもよい。図６に示すような一例として、オーディオサブシステム出力１２１５はヘッドホン１２１への接続を可能とする出力ソケットであってもよい。ただし、オーディオサブシステム出力１２１５は、任意の適切なオーディオ出力またはオーディオ出力への接続部でありうる。例えば、オーディオサブシステム出力１２１５はマルチチャネルスピーカシステムへの接続部であってもよい。前述の球面オーディオ信号は、ラウドスピーカまたはヘッドホンで再生されるため、まずは球面高調波デコーダ（アンビソニックスデコーダ）により復号される。ラウドスピーカ再生、両耳ヘッドホン再生の両方に使用されるアンビソニックスデコーダが存在する。

ある実施形態において、Ｄ／Ａコンバータ１２１３と、オーディオサブシステム１２１５とは、物理的に別々の出力デバイスで実施されてもよい。例えば、ＤＡＣ１２１３およびオーディオサブシステム１２１５が、送受信部１２０９を介してデバイス１２００と通信するコードレスイヤホンとして実施されてもよい。

図示のデバイス１２００は、オーディオキャプチャおよびオーディオレンダリング要素を両方備えているが、ある実施形態においては、デバイス１２００はオーディオキャプチャまたはオーディオレンダリング装置要素のみを備えてもよい。

一般に、本発明の様々な実施形態が、ハードウェアまたは特定用途向け回路、ソフトウェア、ロジック、またはそれらの組合せで実装されてもよい。例えば、ある態様はハードウェアで実装されてもよく、別の態様はコントローラやマイクロプロセッサ等のコンピュータデバイスによって実行されるファームウェアやソフトウェアで実装されてもよいが、本発明はこれらに限定されない。本発明の種々の態様はブロック図、フローチャート、または他の図的記述を使用して記述ないし図示される。本明細書に記載されるこれらのブロック、装置、システム、技術、方法は、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、特定用途向け回路やロジック、汎用ハードウェア、コントローラや他のコンピュータデバイス、またはそれらの組合せで実装されてもよいと理解されるべきである。

本発明の実施形態は、プロセッサエンティティ内にあるような電子デバイスのデータプロセッサによって実行可能なコンピュータソフトウェアによって、またはハードウェアによって、またはソフトウェアとハードウェアの組合せによって実装されてもよい。またこの点に関して、添付する図面に示される論理フローの任意のブロックが、プログラムのステップや、相互接続された論理回路・ブロック・機能、またはプログラムのステップ、論理回路・ブロック・機能の組合せを表現してもよいことに留意されたい。ソフトウェアは、メモリチップ等の物理媒体、プロセッサ内に実装されるメモリブロック、ハードディスクやフレキシブルディスク等の磁気媒体、ＤＶＤ、そのデータ異形態であるＣＤ等の光学媒体に格納されてもよい。

メモリは、ローカルな技術環境に適したあらゆるタイプのものであってよく、例えば、半導体ベースのメモリデバイス、磁気メモリデバイス・システム、光学式メモリデバイス・システム、固定式メモリ、移動式メモリ等の様々な適合するデータ格納技術を用いて実装されてもよい。データプロセッサは、ローカルな技術環境に適したあらゆるタイプのものであってよく、非限定的な例として、１つ以上の汎用コンピュータ、特定用途向けコンピュータ、マイクロプロセッサ、デジタル信号プロセッサ（Digital Signal Processor：ＤＳＰ）、特定用途向け集積回路（Application Specific Integrated Circuit：ＡＳＩＣ）、ゲートレベル回路、マルチコアプロセッサ・アーキテクチャに基づくプロセッサを含んでもよい。

本発明の実施形態は、集積回路モジュールのような、様々な要素で実施されることもできる。集積回路の設計は多くは自動化されたプロセスである。論理レベルの設計を、半導体基板上にエッチング・形成するための半導体回路設計に変換する複雑で強力なソフトウェアツールが利用可能である。

カリフォルニア州マウンテンビューのＳｙｎｏｐｓｙｓ，Ｉｎｃや、カリフォルニア州サンノゼのＣａｄｅｎｃｅＤｅｓｉｇｎのような業者が提供するプログラムは、定評のある設計ルールと実績のある設計モジュールのライブラリに基づいて、半導体チップ上に導電経路や要素を自動的に配する。半導体回路の設計が完了すると、その設計は製造のために、ＯｐｕｓやＧＤＳＩＩ等の標準的な電子フォーマットの形で半導体製造設備、いわゆるｆａｂに送られる。

前述の説明は、本発明の例示的で非限定的な実施例を十分かつ詳細に記述している。しかし、こうした前述の説明を、添付する図面および特許請求の範囲と併せて考慮すれば、種々の修正および変更が可能であることは、本願に関連する技術分野の当業者には明らかであろう。さらに、本発明が教示するこうした事項の全ておよび類似する変形は、添付の特許請求の範囲で定義されるように、その全てが本発明の範囲内にある。

Claims

少なくとも１つのマイクオーディオ信号について、各周波数帯域に対し、当該周波数帯域に対応する空間メタデータに基づいて、複数の球面高調波オーディオ信号を適応的に合成するプロセッサを有し、
前記空間メタデータは、特定の周波数帯域及び特定の時間における、到来音の方向に関する情報を含むと共に、特定の周波数帯域及び特定の時間における、無指向性音の大きさ及び指向性音の大きさに関する情報を含む、
装置。
前記プロセッサは更に、
少なくとも２つのマイクオーディオ信号を受信し、
前記受信した２つのマイクオーディオ信号に基づいて、複数の周波数帯域及び複数の時間において、前記空間メタデータを決定する、
ように構成される、請求項１に記載の装置。
前記プロセッサは、
前記少なくとも１つのマイクオーディオ信号の第１の部分および前記空間メタデータに対して、前記複数の球面高調波オーディオ信号を適応的に合成し、
前記少なくとも１つのマイクオーディオ信号の第２の部分に対して、前記複数の球面高調波オーディオ信号を線形演算によって合成し、
前記球面高調波オーディオ信号を組み合わせる、
ようにさらに構成された、請求項１又は２に記載の装置。
前記少なくとも１つのマイクオーディオ信号の前記第１の部分は前記少なくとも１つのマイクオーディオ信号の第１の周波数帯域であり、前記少なくとも１つのマイクオーディオ信号の前記第２の部分は前記少なくとも１つのマイクオーディオ信号の第２の周波数帯域である、請求項３に記載の装置。
前記プロセッサは、前記少なくとも１つのマイクオーディオ信号を生成する少なくとも１つのマイクの物理的配置に基づいて、前記第１の周波数帯域を決定するようにさらに構成された、請求項４に記載の装置。
前記プロセッサは、
少なくとも１つの次数の球面高調波オーディオ信号に対して、前記少なくとも１つのマイクオーディオ信号の第１の周波数帯域部分および前記空間メタデータの第１の周波数部分に基づいて、球面高調波オーディオ信号を適応的に合成し、
少なくとも１つの別の次数の球面高調波オーディオ信号に対して、球面高調波オーディオ信号を線形演算によって合成し、
前記少なくとも１つの次数の球面高調波オーディオ信号と前記少なくとも１つの別の次数の球面高調波オーディオ信号とを組み合わせる
ようにさらに構成された、請求項１から５のいずれかに記載の装置。
前記プロセッサは、前記少なくとも１つのマイクオーディオ信号を生成する少なくとも１つのマイクの物理的配置に基づいて、前記少なくとも１つの次数の球面高調波信号を決定するようにさらに構成された、請求項６に記載の装置。
前記プロセッサは、
少なくとも１つの球面高調波オーディオ信号軸に対して、前記少なくとも１つのマイクオーディオ信号の第１の周波数帯域部分および前記空間メタデータの第１の周波数部分に基づいて、球面高調波オーディオ信号を適応的に合成し、
少なくとも１つの別の球面高調波オーディオ信号軸に対して、球面高調波オーディオ信号を線形演算によって合成し、
前記少なくとも１つの球面高調波オーディオ信号軸と前記少なくとも１つの別の球面高調波オーディオ信号軸とを組み合わせる
ようにさらに構成された、請求項１から７のいずれかに記載の装置。
前記少なくとも１つのマイクオーディオ信号および前記空間メタデータに基づいて、前記複数の球面高調波オーディオ信号を適応的に合成するように構成された前記プロセッサは、
前記少なくとも１つのマイクオーディオ信号および前記空間メタデータの指向性部分に基づいて、球面高調波オーディオ信号のモデル化された移動音源組を生成し、
前記少なくとも１つのマイクオーディオ信号に基づいて、球面高調波オーディオ信号の周囲組を生成し、
前記球面高調波オーディオ信号のモデル化された移動音源組と前記球面高調波オーディオ信号の周囲組とを組み合わせて、前記複数の球面高調波オーディオ信号を生成する、
ようにさらに構成された、請求項１から８のいずれかに記載の装置。
前記プロセッサは、前記到来音のエネルギーと無指向性周囲エネルギーの比に基づいて、前記少なくとも１つのマイクオーディオ信号を指向性部分と無指向性部分とに分割するようにさらに構成された、請求項１から９のいずれかに記載の装置。
前記プロセッサは、
前記メタデータの前記指向性部分に基づいて、少なくとも１つのモデル化された移動音源重みを決定し、
前記少なくとも１つのマイクオーディオ信号の前記指向性部分に適用された前記少なくとも１つのモデル化された移動音源重みから、前記球面高調波オーディオ信号のモデル化された移動音源組を生成する、
ようにさらに構成された、請求項９に記載の装置。
前記少なくとも１つのマイクオーディオ信号および前記空間メタデータに基づいて、前記複数の球面高調波オーディオ信号を合成するように構成された前記プロセッサは、
前記メタデータに基づいて対象確率的特性を決定し、
前記少なくとも１つのマイクオーディオ信号を分析して、少なくとも１つの短時間確率的特徴を決定し、
前記短時間確率的特徴および前記対象確率的特性に基づいて最適化された重みの組を生成し、
前記重みの組を前記少なくとも１つのマイクオーディオ信号に適用することに基づいて、複数の球面高調波オーディオ信号を生成する、
ようにさらに構成された、請求項１から１１のいずれかに記載の装置。
前記少なくとも１つのマイクオーディオ信号に対応付けられた前記空間メタデータは、
ある周波数帯域に対する前記空間メタデータの方向パラメータと、
前記周波数帯域に対する前記空間メタデータの比パラメータと、
の内の少なくとも１つを含む、請求項１０に記載の装置。