JP2020519950A

JP2020519950A - マルチチャネル空間的オーディオ・フォーマット入力信号の処理

Info

Publication number: JP2020519950A
Application number: JP2019561833A
Authority: JP
Inventors: エス．マグラス，デイヴィッド
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2017-05-09
Filing date: 2018-05-02
Publication date: 2020-07-02
Anticipated expiration: 2038-05-02
Also published as: US10893373B2; JP7224302B2; US20200169824A1; CN110800048B; EP3622509B1; CN110800048A; EP3622509A1

Abstract

マルチチャネルの空間的オーディオ・フォーマットの入力信号を処理するための装置、コンピュータ可読媒体および方法。たとえば、一つのそのような方法は、受領された空間的オーディオ・フォーマットの入力信号に基づいてオブジェクト位置メタデータを決定し；受領された空間的オーディオ・フォーマットの入力信号に基づいてオブジェクト・オーディオ信号を抽出することを含み、該受領された空間的オーディオ・フォーマットの入力信号に基づいてオブジェクト・オーディオ信号を抽出することは、オブジェクト・オーディオ信号および残差オーディオ信号を決定することを含む。

Description

関連出願への相互参照
本願は2017年12月13日に出願された米国仮特許出願第62/598,068号、2017年7月3日に出願された欧州特許出願第17179315.1号および2017年5月9日に出願された米国仮特許出願第62/503,657号の優先権を主張するものである。各出願の内容はここに参照によって組み込まれる。

技術分野
本開示は、空間的オーディオ・フォーマット（たとえば、アンビソニックス、高次アンビソニックス、またはBフォーマット）のオブジェクト・ベースのフォーマット（たとえば、ドルビーのAtmosフォーマット）への変換を含む、没入型オーディオ・フォーマット変換に関する。

本稿は、空間的オーディオ・フォーマット（たとえば、アンビソニックス、高次アンビソニックス、またはBフォーマット）をオブジェクト・ベースのフォーマット（たとえば、ドルビーのAtmosフォーマット）に変換する技術的問題に取り組む。

この点に関し、本明細書および請求項を通じて使用される用語「空間的オーディオ・フォーマット」は、特に、一つまたは複数の位置で記録された音場の方向特性を表わす、ラウドスピーカーに依存しない信号を提供するオーディオ・フォーマットに関する。さらに、本明細書および請求項を通じて使用される用語「オブジェクト・ベースのフォーマット」は、特に、音源を表わす、ラウドスピーカーに依存しない信号を提供するオーディオ・フォーマットに関する。

本稿のある側面は、マルチチャネル空間的フォーマット入力オーディオ信号（すなわち、複数のチャネルを含む空間的フォーマット（空間的オーディオ・フォーマット）のオーディオ信号）を処理する方法に関する。空間的フォーマット（空間的オーディオ・フォーマット）は、たとえば、アンビソニックス、高次アンビソニックス（HOA）、またはBフォーマットでありうる。この方法は、入力オーディオ信号を解析して、入力オーディオ信号に含まれるオーディオ・オブジェクトの複数のオブジェクト位置を決定することを含んでいてもよい。オブジェクト位置は、たとえばデカルト座標または球面座標で3-ベクトルによって示される空間位置であってもよい。代替的に、用途に応じて、オブジェクト位置は二次元で示されてもよい。

本方法はさらに、入力オーディオ信号の複数の周波数サブバンドのそれぞれについて、各オブジェクト位置について、その周波数サブバンドおよびそのオブジェクト位置の混合利得を決定することを含んでいてもよい。この目的に向け、本方法は、入力オーディオ信号に時間‐周波数変換を適用し、結果として得られる周波数係数を周波数サブバンドに配置することを含んでいてもよい。あるいはまた、本方法は、入力オーディオ信号にフィルタバンクを適用することを含んでいてもよい。混合利得は、オブジェクト利得と称されることがある。

本方法はさらに、各周波数サブバンドについて、各オブジェクト位置について、入力オーディオ信号、その周波数サブバンドおよびそのオブジェクト位置についての混合利得、およびその空間的フォーマットの空間的マッピング関数に基づいて、周波数サブバンド出力信号を生成することを含んでいてもよい。空間的マッピング関数は、空間的デコード関数、たとえば、空間的デコード関数DS(loc)であってもよい。

本方法はさらに、各オブジェクト位置について、そのオブジェクト位置についての周波数サブバンド出力信号を足し合わせることによって出力信号を生成することを含んでいてもよい。加算は加重和であってもよい。オブジェクト位置は、オブジェクト位置メタデータとして出力されてもよい（たとえば、オブジェクト位置を示すオブジェクト位置メタデータが生成され、出力されてもよい）。出力信号は、オブジェクト信号またはオブジェクト・チャネルと称されてもよい。上記の処理は、各所定の時間期間について（たとえば、各時間ブロックについて、または時間‐周波数変換の各変換窓について）実行されてもよい。

典型的には、空間的フォーマットからオブジェクト・ベースのフォーマットへのフォーマット変換のための既知のアプローチは、一組の優勢方向に関連するオーディオ・オブジェクト信号を抽出するときに広帯域アプローチを適用する。対照的に、提案される方法は、オーディオ・オブジェクト信号を決定するためのサブバンド・ベースのアプローチを適用する。そのように構成されることで、提案される方法は、サブバンド毎に明確なパンニング／ステアリング決定を提供することができる。それにより、オーディオ・オブジェクトの方向の離散性が向上し、結果として得られるオーディオ・オブジェクトにおける「ぼけ（smearing）」が少なくなる。たとえば、（可能性としては広帯域アプローチを使って、またはサブバンド・ベースのアプローチを使って）優勢方向を決定した後、あるオーディオ・オブジェクトが、第一の周波数サブバンドにおいてはある優勢方向にパンされるが、第二の周波数サブバンドにおいては別の優勢方向にパンされることが判明する可能性がありうる。異なるサブバンドにおけるオーディオ・オブジェクトのこの異なるパン挙動は、フォーマット変換のための既知のアプローチによっては捕捉されず、方向性の離散性の減少とぼけの増加という代償を伴う。

いくつかの例では、オブジェクト位置についての混合利得は、周波数依存であってもよい。

いくつかの例では、空間的フォーマットは、複数のチャネルを定義してもよい。その際、空間的マッピング関数は、空間的フォーマットの前記複数のチャネルから所与の位置におけるオーディオ信号を抽出するための、その空間的フォーマットの空間的デコード関数であってもよい。所与の位置におけるとは、たとえば、該所与の位置から入射することを意味するものとする。

いくつかの例では、空間的フォーマットの空間的パン関数は、ソース位置におけるソース信号を、空間的フォーマットによって定義される前記複数のチャネルにマッピングするための関数であってもよい。ソース位置におけるとは、たとえば、そのソース位置から入射することを意味するものとする。マッピングは、パンニング〔パン〕と称されることがある。空間的デコード関数は、空間的パン関数および空間的デコード関数の相続く適用が、単位球上のすべての位置について1の利得を与えるように定義されてもよい。空間的デコード関数はさらに、平均のデコードされたパワーが最小化されるように定義されてもよい。

いくつかの例では、所与の周波数サブバンドおよび所与のオブジェクト位置についての混合利得の決定は、その所与のオブジェクト位置と、その所与の周波数サブバンドにおける入力オーディオ信号の共分散行列とに基づいてもよい。

いくつかの例では、前記所与の周波数サブバンドおよび前記所与のオブジェクト位置についての混合利得は、前記所与の周波数サブバンドにおける入力オーディオ信号についてのステアリング関数を、前記所与のオブジェクト位置において評価したものに依存してもよい。

いくつかの例では、ステアリング関数は、前記所与の周波数サブバンドにおける入力オーディオ信号の共分散行列に基づいていてもよい。

いくつかの例では、所与の周波数サブバンドおよび所与のオブジェクト位置についての混合利得を決定することは、前記所与のオブジェクト位置の時間を追った変化率にさらに基づいていてもよい。混合利得は、所与のオブジェクト位置の変化率に依存して減衰させられてもよい。たとえば、混合利得は、変化率が高い場合には減衰させられてもよく、静的なオブジェクト位置については減衰させられなくてもよい。

いくつかの例では、各周波数サブバンドについて、各オブジェクト位置について、周波数サブバンド出力信号を生成することは、利得行列および空間的デコード行列を入力オーディオ信号に適用することを含んでいてもよい。利得行列および空間的デコード行列は、相次いで適用されてもよい。利得行列は、その周波数サブバンドについての決定された混合利得を含んでいてもよい。たとえば、利得行列は、前記混合利得を適切に順序付けられたその対角成分としてもつ対角行列であってもよい。空間的デコード行列は、各オブジェクト位置について一つで、複数のマッピング・ベクトルを含んでいてもよい。各マッピング・ベクトルは、それぞれのオブジェクト位置で前記空間的デコード関数を評価することによって得られてもよい。たとえば、空間的デコード関数は、ベクトル値関数（たとえば、マルチチャネルの空間的フォーマットの入力オーディオ信号がn_s×1の列ベクトルとして定義される場合、1×n_sの行ベクトルを与える、R³→R^ns）であってもよい。

いくつかの例では、本方法はさらに、前記複数の出力信号を空間的フォーマットに再エンコードして、マルチチャネルの空間的フォーマットのオーディオ・オブジェクト信号を得ることを含んでいてもよい。本方法はさらにまた、入力オーディオ信号から該オーディオ・オブジェクト信号を減算して、マルチチャネル空間的フォーマット残差オーディオ信号を得ることを含んでいてもよい。空間的フォーマット残差信号は、前記出力信号およびもしあれば位置メタデータと一緒に出力されてもよい。

いくつかの例では、本方法はさらに、残差オーディオ信号にダウンミックスを適用して、ダウンミックスされた残差オーディオ信号を得ることを含んでいてもよい。ダウンミックスされた残差オーディオ信号のチャネル数は、入力オーディオ信号のチャネル数よりも少なくてもよい。ダウンミックスされた空間的フォーマット残差信号は、前記出力信号およびもしあれば位置メタデータと一緒に出力されてもよい。

いくつかの例では、入力オーディオ信号を解析することは、各周波数サブバンドについて、音到来の一つまたは複数の優勢方向の集合を決定することに関わってもよい。入力オーディオ信号を解析することはさらに、前記複数の周波数サブバンドについての前記一つまたは複数の優勢方向の諸集合の和集合を決定することを含んでいてもよい。入力オーディオ信号を解析することはさらにまた、前記諸集合の和集合に対してクラスタリング・アルゴリズムを適用して、前記複数のオブジェクト位置を決定することを含んでいてもよい。

いくつかの例では、音到来の優勢方向の前記集合を決定することは：その周波数サブバンド内の入力オーディオ信号の共分散行列から諸要素を抽出すること、および、その周波数サブバンド内の入力オーディオ信号の投影関数の極大を決定することと、のうちの少なくとも一つに関わってもよい。前記投影関数は、入力オーディオ信号の共分散行列および空間的フォーマットの空間的パン関数に基づいていてもよい。

いくつかの例では、各優勢方向は、関連する重みを有していてもよい。次いで、クラスタリング・アルゴリズムは、優勢方向の重み付けされたクラスタリングを実行してもよい。それぞれの重みは、たとえば、その優勢方向についての信頼値を示してもよい。信頼値は、オーディオ・オブジェクトが実際に前記オブジェクト位置に位置されているかどうかの確からしさを示しうる。

いくつかの例では、クラスタリング・アルゴリズムは、k平均アルゴリズム、重み付けされたk平均アルゴリズム、期待値最大化（expectation-maximization）アルゴリズム、および重み付けされた平均アルゴリズムのうちの一つであってもよい。

いくつかの例では、本方法はさらに、オブジェクト位置を示すオブジェクト位置メタデータを生成することを含んでいてもよい。オブジェクト位置メタデータは、前記出力信号およびもしあれば（ダウンミックスされた）空間的フォーマット残差信号と一緒に出力されてもよい。

本稿の別の側面は、マルチチャネルの空間的フォーマットの入力オーディオ信号を処理するための装置に関する。本装置はプロセッサを含んでいてもよい。プロセッサは、入力オーディオ信号を解析して、入力オーディオ信号に含まれるオーディオ・オブジェクトの複数のオブジェクト位置を決定するよう適応されてもよい。プロセッサはさらに、入力オーディオ信号の複数の周波数サブバンドのそれぞれについて、各オブジェクト位置について、その周波数サブバンドおよびそのオブジェクト位置についての混合利得を決定するよう適応されてもよい。プロセッサはさらに、各周波数サブバンドについて、各オブジェクト位置について、入力オーディオ信号、その周波数サブバンドおよびそのオブジェクト位置についての混合利得、およびその空間的フォーマットの空間的マッピング関数に基づいて、周波数サブバンド出力信号を生成するよう適応されてもよい。プロセッサはさらにまた、各オブジェクト位置について、そのオブジェクト位置についての周波数サブバンド出力信号を足し合わせることによって出力信号を生成するよう適応されてもよい。本装置は、プロセッサに結合されたメモリをさらに有していてもよい。メモリは、プロセッサによる実行のためにそれぞれの命令を記憶してもよい。

本稿の別の側面は、ソフトウェア・プログラムに関する。本ソフトウェア・プログラムは、プロセッサ上での実行のために、かつプロセッサ上で実行されるときに本稿で概説される方法ステップを実行するように適応されてもよい。

本稿の別の側面は、記憶媒体に関する。記憶媒体は、プロセッサ上での実行のために、かつプロセッサ上で実行されるときに本稿で概説される方法ステップを実行するように適応されたソフトウェア・プログラムを有していてもよい。

本稿の別の側面は、コンピュータ・プログラム製品に関する。コンピュータ・プログラムは、コンピュータ上で実行されるときに、本稿で概説される方法ステップを実行するための実行可能命令を含んでいてもよい。

本稿の別の側面は、マルチチャネルの空間的オーディオ・フォーマットの入力信号を処理する方法に関し、本方法は、受領された空間的オーディオ・フォーマットの入力信号に基づいてオブジェクト位置メタデータを決定するステップと；受領された空間的オーディオ・フォーマットの入力信号に基づいてオブジェクト・オーディオ信号を抽出するステップとを含む。受領された空間的オーディオ・フォーマットの入力信号に基づいてオブジェクト・オーディオ信号を抽出することは、オブジェクト・オーディオ信号および残差オーディオ信号を決定することを含む。

抽出された各オーディオ・オブジェクト信号は、対応するオブジェクト位置メタデータを有していてもよい。オブジェクト位置メタデータは、オブジェクトの到来方向を示してもよい。オブジェクト位置メタデータは、受領された空間的オーディオ・フォーマットの入力信号の統計から導出されてもよい。オブジェクト位置メタデータは、随時変化してもよい。オブジェクト・オーディオ信号は、受領された空間的オーディオ・フォーマットの入力信号のいくつかのサブバンドのそれぞれにおける線形混合行列に基づいて決定されてもよい。残差信号は、受領された空間的オーディオ・フォーマットの入力信号のいくつかのチャネルよりも少ない数のチャネルから構成されてもよいマルチチャネル残差信号であってもよい。

オブジェクト・オーディオ信号を抽出することは、前記空間的オーディオ・フォーマットの入力信号から前記オブジェクト・オーディオ信号の寄与を差し引くことによって決定されてもよい。また、オブジェクト・オーディオ信号を抽出することは、前記一つまたは複数のオブジェクト・オーディオ信号および前記残差信号を生成するための後続の処理によって使用されうる線形混合行列係数を決定することをも含んでいてもよい。行列係数は、それぞれの周波数帯について異なっていてもよい。

本稿の別の側面は、マルチチャネルの空間的オーディオ・フォーマットの入力信号を処理する装置に関し、本装置は、受領された空間的オーディオ・フォーマットの入力信号に基づいてオブジェクト位置メタデータを決定するためのプロセッサと；受領された空間的オーディオ・フォーマットの入力信号に基づいてオブジェクト・オーディオ信号を抽出するための抽出器とを備え、受領された空間的オーディオ・フォーマット入力信号に基づいてオブジェクト・オーディオ信号を抽出することは、オブジェクト・オーディオ信号および残差オーディオ信号を決定することを含む。

本特許出願に概説されているその実施形態を含む方法およびシステムは、単体で、または本稿に開示される他の方法およびシステムと組み合わせて使用されうることに注意しておくべきである。さらに、本特許出願に概説される方法およびシステムのすべての側面は、任意に組み合わされてもよい。特に、請求項の特徴は、任意の仕方で互いに組み合わされてもよい。

本発明は、添付の図面を参照して、例示的に下記で説明される。
本発明のある側面を示す例示的な概念ブロック図を示す。周波数領域変換に関する本発明の側面を示す例示的な概念ブロック図を示す。周波数領域バンディング利得band_b(f)の例示的な図を示す。共分散計算のための時間窓win_b(k)の例示的な図を示す。空間的オーディオ・フォーマット（たとえば、アンビソニックス、HOA、またはBフォーマット）をオブジェクト・ベースのオーディオ・フォーマット（たとえば、ドルビーのAtmosフォーマット）に変換するための例示的な方法のフローチャートを示す。空間的オーディオ・フォーマットをオブジェクト・ベースのオーディオ・フォーマットに変換するための方法の別の例のフローチャートを示す。図６の方法のステップを実装する方法の一例のフローチャートである。図６の方法と関連して実行されうる方法の一例のフローチャートである。

図1は、本発明の例示的なシステム100を示す例示的な概念ブロック図を示している。システム100は、システム100によって受領される入力であってもよいn_sチャネルの空間的オーディオ・フォーマット101を含む。空間的オーディオ・フォーマット101は、Bフォーマット、アンビソニックス・フォーマットまたはHOAフォーマットであってもよい。システム100の出力は、下記を含んでいてもよい：
・n_o個のオーディオ・オブジェクトを表わすn_o個のオーディオ出力チャネル；
・n_o個のオブジェクトの時間変化する位置を指定する位置データ；
・n_r個の残差オーディオ・チャネルの集合。これは、もとの音場から上記n_o個のオブジェクトが除去されたものを表わす。

システム100は、オブジェクト位置を決定するための第一の処理ブロック102と、オブジェクト・オーディオ信号を抽出するための第二の処理ブロック103とを含んでいてもよい。ブロック102は、空間的オーディオ信号101を解析し、（時間間隔τ_mによって定義される）規則的な時点における、ある数（n_o）のオブジェクトの位置を決定するための処理を含むよう構成されてもよい。すなわち、処理は、所定の時間期間ごとに実行されてもよい。

たとえば、時刻t＝kτ_mにおけるオブジェクトo（1≦o≦n_o）の位置は、3-ベクトル

によって与えられる。

用途（たとえば平面構成用）に依存して、時刻t＝kτ_mにおけるオブジェクトo（1≦o≦n_o）の位置は2-ベクトルによって与えられてもよい。

ブロック102は、オブジェクト位置メタデータ111を出力してもよく、オブジェクト位置情報をさらなる処理のためにブロック103に提供してもよい。

ブロック103は、空間的オーディオ信号（入力オーディオ信号）101を処理し、n_o個のオーディオ・オブジェクトを表わすn_o個のオーディオ信号（出力信号、オブジェクト信号、またはオブジェクト・チャネル）112を抽出するための処理を含むよう構成されてもよい（オーディオ・オブジェクトは、1≦o≦n_oであるとして、ベクトルv_o(k)〔→付き〕によって定義される位置をもつ）。n_rチャネルの残差オーディオ信号（空間的フォーマットの残差オーディオ信号またはダウンミックスされた空間的フォーマットの残差オーディオ信号）113も、この第二段の出力として提供される。

図2は、周波数領域変換に関する本発明の側面を示す例示的な概念ブロック図を示している。ある好ましい実施形態では、入力および出力オーディオ信号は、周波数領域で（たとえばCQMF変換された信号を使って）処理される。図2に示される変数は、以下のように定義されてもよい：

図2は、周波数領域への変換および周波数領域からの変換を示している。この図では、CQMFおよびCQMF^-1変換が示されているが、他の周波数領域変換が当技術分野で知られており、この状況で適用可能でありうる。また、たとえば、入力オーディオ信号にフィルタバンクが適用されてもよい。

一例では、図2は、入力信号（たとえば、マルチチャネルの空間的フォーマット入力オーディオ信号、または略して入力オーディオ信号）を受領することを含むシステム200を示している。入力信号は、各チャネルiについての入力信号s_i(t) 201を含んでいてもよい。すなわち、入力信号は複数のチャネルを含んでいてもよい。複数のチャネルは、空間的フォーマットによって定義される。チャネルiについての入力信号201はCQMF変換202によって周波数領域に変換され、該CQMF変換202はS_i(k,f)（チャネルiについての周波数領域信号）203を出力してもよい。チャネルiについての周波数領域入力203は、ブロック204および205に提供されてもよい。ブロック204は、図1のブロック102と同様の機能を実行してもよく、ベクトルv_o(k)〔→付き〕（オブジェクトoの位置）211を出力してもよい。該出力211は、一組の出力（たとえば、o＝1,2,…,nについての出力）であってもよい。ブロック204は、オブジェクト位置情報をさらなる処理のためにブロック205に提供してもよい。ブロック205は、図1のブロック103と同様の機能を実行してもよい。ブロック205はT_o(k,f)（オブジェクトoについての周波数領域出力）212を出力してもよく、これは次いで、CQMF^-1変換によって周波数領域から時間領域に変換されて、t_o(t)（オブジェクトoについての出力信号）213を決定してもよい。ブロック205はさらにU_r(k,f)（周波数領域の出力残差チャネルr）214を出力してもよく、これは次いでCQMF^-1変換によって周波数領域から時間領域に変換されて、u_r(t)（出力残差チャネルr）215を決定してもよい。

周波数領域変換は、規則的な時間間隔τ_mで実行されるので、ブロックkにおける変換された信号S_i(k,f)は、時刻t＝kτ_mを中心とした時間区間におけるこの入力信号の周波数領域表現である：

いくつかの実施形態では、周波数領域処理は、ある数n_bの帯域上で実行される。これは、周波数ビンの集合（f∈{1,2,…,n_f}）をn_b個の帯域に割り当てることによって達成される。このグループ化は、図3に示されるように、n_b個の利得ベクトルband_b(f)の集合を介して達成されうる。この例では、n_f＝64、n_b＝13である。

空間的オーディオ入力（入力オーディオ信号）は、複数n_s個のチャネルを定義してもよい。いくつかの実施形態では、空間的オーディオ入力は、n_s個の空間的オーディオ信号の共分散行列をまず計算することによって解析される。共分散行列は、図1のブロック102および図2のブロック204によって決定されてもよい。ここに記載される例では、各周波数帯域（周波数サブバンド）において、各時間ブロックkについて共分散が計算される。n_s個の周波数領域の入力信号を列ベクトルに配置すると、次のようになる：

限定しない例として、入力オーディオ信号の共分散（共分散行列）は、次のように計算されてもよい：

ここで、■*演算子は複素共役転置を表わす。

一般に、ブロックkについての共分散C_b(k)は、周波数領域における入力オーディオ信号の外積S(k',f)×S(k',f)*の和（加重和）から計算される[n_s×n_s]行列である。重み付け関数（もしあれば）win_b(k−k')およびband_b(f)は、帯域bのまわりの周波数ビンおよびブロックkのまわりの時間ブロックに対してより大きな重みを適用するように選択されてもよい。

典型的な時間窓win_b(k)が図4に示されている。この例では、win_b(k)＝0 ∀k＜0であり、共分散計算が因果的であることを保証している（よって、ブロックkについての共分散の計算はブロックkまたはそれ以前の周波数領域入力信号にのみ依存する）。

パワーおよび規格化された共分散は、次のように計算されうる：

ここで、t()は行列のトレースを表わす。

次に、入力フォーマットおよび残差フォーマットを定義するパン関数について述べる。

空間的オーディオ入力信号は、パン規則に従って組み合わされる聴覚要素（要素cは位置loc_c(t)にパンされる信号sig_c(t)からなる）を含むと想定される：

そのため、空間的入力フォーマットは、単位ベクトルを入力として取り、長さn_sの列ベクトルを出力として生成するパン関数PS：R³→R^nsによって定義される。

一般に、空間的フォーマット（空間的オーディオ・フォーマット）は、複数のチャネル（たとえば、n_s個のチャネル）を定義する。パン関数（または空間的パン関数）は、上記の例において示されるように、ソース位置にある（たとえば該ソース位置から入射する）ソース信号を空間的フォーマットによって定義される複数のチャネルにマッピング（パン）するための関数である。ここで、パン関数（空間的パン関数）は、それぞれのパン規則を実装する。同様の陳述は、後述する残差出力信号のパン関数（たとえばパン関数PR）にも当てはまる。

同様に、残差出力信号は、パン規則に従って組み合わされる聴覚要素を含むと想定され、ここで、パン関数PR：R³→R^nrは、単位ベクトルを入力として取り、長さn_rの列ベクトルを出力として生成する。これらのパン関数PS()およびPR()は、それぞれ空間的入力信号および残差出力信号の特性を定義するが、これは、これらの信号が必ずしも式7の方法に従って構成されることを意味するものではないことを注意しておく。いくつかの実施形態では、残差出力信号のチャネル数n_rおよび空間的入力信号のチャネル数n_sは等しくてもよい（n_r＝n_s）。

次に、入力デコード関数について述べる。

空間的入力フォーマット・パン関数（たとえばPS：R³→R^ns）が与えられるとき、単位ベクトルを入力として取り、長さn_sの行ベクトルを出力として返す空間的入力フォーマット・デコード関数（空間的デコード関数）DS：R³→R^nsを導出することも有用である。関数DS(loc)は、locによって指定される方向のまわりのオーディオ成分に対応する、マルチチャネル空間的入力信号から単一のオーディオ信号を抽出するために好適な行ベクトルを提供するように定義されるべきである。

一般に、パンナー／デコーダの組み合わせは、1の利得を与えるように構成されてもよい：

さらに、平均のデコードされたパワー（単位球面上で積分される）は最小化されてもよい：

たとえば、空間的入力信号が、式10に示されるパン関数：

に従って、二次アンビソニックスのパン規則に従ってパンされるオーディオ成分を含んでいるとする。

最適なデコード関数DS()は次のように決定されてもよい。

デコード関数DSは、本開示の文脈における空間的フォーマットの空間的デコード関数の例である。一般に、空間的フォーマットの空間的デコード関数は、その空間的フォーマットによって定義される複数のチャネルから、所与の位置locにおける（たとえば、該所与の位置から入射する）オーディオ信号を抽出するための関数である。空間的デコード関数は、空間的パン関数（たとえばPS）および空間的デコード関数（たとえばDS）の相続く適用が単位球上のすべての位置について利得1を与えるように定義（たとえば、決定、計算）されてもよい。空間的デコード関数はさらに、平均デコード・パワーが最小化されるように定義（たとえば、決定、計算）されてもよい。

次にステアリング関数について述べる。

空間的オーディオ入力信号は、それぞれの入射到来方向をもつ複数のオーディオ成分から構成されると想定され、よって、共分散行列の検査によって、特定の方向に現われるオーディオ信号の割合を推定する方法を有することが望ましい。下記で定義されるステアリング関数Steerがそのような推定値を提供できる。

いくつかの複雑な空間的入力信号は、多数のオーディオ成分を含み、空間的入力フォーマット・パン関数の有限の空間分解能は、全オーディオ入力パワーのうち、「拡散（diffuse）」と考えられる何らかの割合がありうることを意味する（すなわち、信号のこの部分は、すべての方向に一様に広がっていると考えられる）。

よって、任意の所与の到来方向v^→〔→付きのv〕について、推定された拡散量を除いて、ベクトルv^→のまわりの領域に存在する空間的オーディオ入力信号の量の推定ができることが望ましい。

関数（ステアリング関数）Steer(C,v^→)は、入力空間的信号が位置v^→にあるオーディオ成分のみで構成されるときはいつでもその関数が値1.0をとり、入力空間的信号が方向v^→のほうへのバイアスを含まないように見えるときは値0.0をとるように定義されてもよい。一般に、ステアリング関数は、入力オーディオ信号の共分散行列Cに基づく（たとえば依存する）。また、ステアリング関数を、範囲[0.0,1.0]とは異なる数値範囲に規格化してもよい。

さて、規格化された共分散Cをもつ音場において、特定の方向v^→におけるパワーの割合を、投影関数

を使って推定することが一般的である。

この投影関数は、規格化された共分散行列が、v^→に近い方向において大きな信号成分をもつ入力信号に対応するときはいつでも、より大きな値をとる。同様に、この投影関数は、規格化された共分散行列が、v^→に近い方向において優勢オーディオ成分をもたない入力信号に対応するときはいつでも、より小さな値をとる。

よって、この投影関数は、ステアリング関数Steer(C,v^→)を形成するために投影関数から単調なマッピングを形成することによって、方向v^→のほうにバイアスされる入力信号の比率を推定するために使用されうる。

この単調マッピングを決定するために、まず関数proj(C,v^→)の期待値を、二つの仮想的な使用事例：(1)入力信号が拡散音場を含んでいる場合および(2)入力信号がv^→の方向に単一の音成分を含んでいる場合について、推定するべきである。以下の説明は、下記の式16および式19で定義されるDiffusePowerおよびSteerPowerに基づく、式20および式21との関連で記述されるSteer(C,v^→)関数の定義につながる。

任意の入力パン関数（たとえば、入力パン関数PS()）が与えられれば、（拡散音場の共分散を表わす）平均共分散を決定することが可能である：

拡散音場の規格化された共分散は、次のように計算されうる：

ここで、規格化された共分散Cをもつ音場における特定の方向v^→におけるパワーの割合を、投影関数

を使って推定することが一般的である。

投影が拡散音場に適用されるとき、方向v^→の近傍における拡散パワーは、次のように決定されうる。

典型的には、DiffusePower(v^→)は実定数であってもよく（たとえば、DiffusePower(v^→)は方向v^→に依存しない）、よって、それは、（空間的パン関数および空間的デコード関数の例として）音場入力パン関数およびデコード関数PS()およびDS()の定義のみから導出されるので、事前計算されてもよい。

空間的入力信号が方向v^→に位置された単一のオーディオ成分で構成されているとすると、結果として得られる共分散行列は：

となり、規格化された共分散は：

となり、よって、proj()関数が適用されてSteerPowerを決定することができる：

典型的には、SteerPower(v^→)は実定数であり、よって、それは、（空間的パン関数および空間的デコード関数の例として）音場入力パン関数およびデコード関数PS()およびDS()の定義のみから導出されるので、事前計算されてもよい。

入力空間的信号が方向v^→からの優勢信号を含んでいる度合いの推定値を、スケーリングされた投影関数ψ(C,v^→)を、よってステアリング関数Steer(C,v^→)を計算することによって、形成する。

一般的に言えば、ステアリング関数Steer(C,v^→)は、入力空間的信号が位置v^→にあるオーディオ成分のみで構成される場合はいつでも値1.0をとり、入力空間的信号が方向v^→のほうへのバイアスを含まないように見える場合は値0.0をとる。上述のように、ステアリング関数は、範囲[0.0,1.0]とは異なる数値範囲に規格化されてもよい。

いくつかの実施形態において、空間的入力フォーマットが、パン関数：

および好適なデコード関数

によって定義される一次アンビソニックス・フォーマットである場合、Steer()関数は次のように定義されうる：

次に、残差フォーマットについて述べる。

いくつかの実施形態において、残差出力信号は、空間的入力フォーマットと同じ空間的フォーマットで定義されてもよい（よって、パン関数は同じである：PS(v^→)＝PR(v^→)）。残差出力信号は、図1のブロック103および図2のブロック205によって決定されてもよい。この場合、残差チャネルの数は入力チャネルの数と等しく、n_r＝n_sとなる。さらに、この場合、残差ダウンミックス行列：R＝I_ns（[n_s×n_s]の恒等行列）が定義されてもよい。

いくつかの実施形態では、残差出力信号は、空間的入力信号よりも少数のチャネルから構成される、つまりn_r＜n_sである。この場合、残差フォーマットを定義するパン関数は、空間的入力パン関数とは異なる。さらに、n_sチャネルの空間的入力信号をn_rチャネルの残差出力チャネルに変換するのに好適な[n_r×n_s]のミックスダウン行列Rを形成することが望ましい。

好ましくは、Rは（その空間的フォーマットの空間的パン関数および残差フォーマットの例としての）PS()からPR()への線形変換を提供するよう選択されてもよい：

式25により定義される行列Rの一例は、空間的入力フォーマットが三次アンビソニックスであり、残差フォーマットが一次アンビソニックスである場合に適用される残差ダウンミックス行列：

である。

あるいはまた、Rは「最小誤差」マッピングを提供するように選択されてもよい。たとえば、単位球上にほぼ一様に広がるn_b個の単位ベクトルの集合B＝{b₁ ^→,b₂ ^→,…,b_nb ^→}が与えられた場合、n_b個の列ベクトルを積み重ねることによって一対の行列が形成されてもよい：

ここで、Bsは空間的入力パンニング・ベクトルの[n_s×n_b]の配列、B_Rは残差出力パンニング・ベクトルの[n_r×n_b]の配列である。

残差ダウンミックス行列Rについての好適な選択は、次式で与えられる：

ここで、B_S ⁺は行列B_Sの疑似逆行列を示す。

次に、本開示の実施形態によるマルチチャネルの空間的フォーマットの入力オーディオ信号を処理する方法600の例について、図6を参照して述べる。本方法は、上記の概念のいずれを用いることがある。方法600の処理は、たとえば、各時間ブロックkにおいて実行されてもよい。すなわち、方法600は、所定の各時間期間について（たとえば、時間‐周波数変換の各変換窓について）実行されてもよい。マルチチャネルの空間的フォーマットの入力オーディオ信号は、空間的フォーマット（空間的オーディオ・フォーマット）のオーディオ信号であってよく、複数チャネルを含んでいてもよい。空間的フォーマット（空間的オーディオ・フォーマット）は、アンビソニックス、HOA、またはBフォーマットであってもよいが、これらに限定されない。

ステップS610では、入力オーディオ信号が解析され、入力オーディオ信号に含まれるオーディオ・オブジェクトの複数のオブジェクト位置が決定される。たとえば、n_o個のオブジェクト（o∈[1,n_o]）の位置v_o ^→(k)が決定されてもよい。これは、入力オーディオ信号のシーン解析を実行することに関わってもよい。このステップは、サブバンド・ベースのアプローチおよびブロードバンド・アプローチのいずれかによって実行されてもよい。

ステップS620では、入力オーディオ信号の複数の周波数サブバンドのそれぞれについて、および各オブジェクト位置について、その周波数サブバンドおよびそのオブジェクト位置について混合利得が決定される。このステップに先立って、本方法は、時間領域入力オーディオ信号に時間‐周波数変換を適用するステップをさらに含んでいてもよい。

ステップS630では、各周波数サブバンドについて、および各オブジェクト位置について、入力オーディオ信号、その周波数サブバンドおよびそのオブジェクト位置についての混合利得、およびその空間的フォーマットの空間的マッピング関数に基づいて、周波数サブバンド出力信号が生成される。空間的マッピング関数は、空間的デコード関数（たとえば、空間的デコード関数PS）であってもよい。

ステップS640では、各オブジェクト位置について、そのオブジェクト位置についての周波数サブバンド出力信号を足し合わせることによって、出力信号が生成される。さらに、オブジェクト位置が、オブジェクト位置メタデータとして出力されてもよい。よって、このステップは、オブジェクト位置を示すオブジェクト位置メタデータを生成することをさらに含んでいてもよい。オブジェクト位置メタデータは、前記出力信号と一緒に出力されてもよい。本方法はさらに、周波数領域出力信号に逆時間‐周波数変換を適用するステップを含んでいてもよい。

ここで、ステップS610において入力オーディオ信号の解析のために使用されうる処理、すなわち、オブジェクト位置の決定の限定しない例について、図7を参照して述べる。この処理は、たとえば、図1のブロック102および図2のブロック204によって／において実行されてもよい。本発明の目標は、（t＝kτ_mのまわりの時間における空間的オーディオ入力信号s_i(t)によって表わされる）音場内の優勢なオーディオ・オブジェクトの位置v_o ^→(k)を決定することである。このプロセスは、略称DOLによって言及されてもよく、いくつかの実施形態では、このプロセスは、ステップDOL1、DOL2、およびDOL3によって（たとえば、各時間ブロックkにおいて）達成される。

ステップS710では、各周波数サブバンドについて、音到来の一つまたは複数の優勢方向の集合が決定される。これは、下記のプロセスDOL1を実行することに関わってもよい。

DOL1：各帯域bについて、優勢な音到来方向（d_b,j ^→）の集合V_bを決定する。それぞれの優勢な音到来方向は、それぞれの方向ベクトルに割り当てられた「信頼性」を示す、関連付けられた重み付け因子w_b,jを有していてもよい：

この第一段階(1)、DOL1は、いくつかの異なる方法によって達成されうる。いくつかの代替的な方法はたとえば下記のようなものである。

DOL1(a)：
・いくつかの優勢な到来方向d_b,1 ^→、d_b,2 ^→を決定するために、当該技術分野で知られているMUSICアルゴリズム（たとえば非特許文献１参照）が使用されてもよい。
Schmidt, R.O、"Multiple Emitter Location and Signal Parameter Estimation"、IEEE Trans. Antennas Propagation, Vol.AP-34 (March 1986, pp.276-280

DOL1(b)：
いくつかの一般的に使用されている空間的フォーマットについては、共分散行列の要素から単一の優勢な到来方向が決定されてもよい。いくつかの実施形態では、空間的入力フォーマットが、パン関数：

によって定義される一次アンビソニックス・フォーマットである場合、帯域bにおける優勢な到来方向についての推定は、共分散行列から三つの要素を抽出し、次いで規格化して単位ベクトルを形成することによってなされてもよい：

DOL1(b)の処理は、関連する周波数サブバンド内の入力オーディオ信号の共分散行列から要素を抽出することの例に関係していると言える。

DOL1(c)：帯域bについての優勢な到来方向は、投影関数：

の極大のすべてを見出すことによって決定されうる。
極大を探すために使用されうる一つの例示的な方法は、勾配探索法によって初期推定値を洗練していき、それによりproj(v^→)の値を極大化することによって機能する。初期推定値は：
・いくつかのランダムな方向を出発点として選択する
・前の時間ブロックk−1からの（この帯域bについての）優勢方向のそれぞれを出発点としてとる、
ことによって見出されてもよい。

よって、優勢な音到来方向の集合を決定することは、関連する周波数サブバンド内の入力オーディオ信号の共分散行列から要素を抽出することと、周波数サブバンド内の入力オーディオ信号の投影関数の極大を決定することとのうちの少なくとも一つに関わりうる。投影関数は、たとえば、入力オーディオ信号の共分散行列（たとえば規格化された共分散行列）およびその空間的フォーマットの空間的パン関数に基づいていてもよい。

ステップS720では、前記複数の周波数サブバンドについての前記一つまたは複数の優勢方向の諸集合の和集合が決定される。これは、下記のプロセスDOL2を実行することに関わりうる。

DOL2：優勢な音到来方向の集まりから、すべての帯域の優勢音到来方向集合の和集合を形成する：

上記で概説した方法（DOL1(a)、DOL1(b)およびDOL1(c)）を使用して、帯域bについて優勢な音到来方向（d_b,1 ^→、d_b,1 ^→、）の集合を決定してもよい。これらの優勢な音到来方向のそれぞれについて、対応する「信頼因子」(w_b,1、w_b,2、）が決定されてもよい。これらは、それぞれの優勢な音到来方向にどの程度の重み付けが与えられるべきかを示す。

最も一般的な場合では、重み付けは、次のように、いくつかの因子を組み合わせることによって計算されうる：

式35において、関数Weight_L()は、時間ブロックkにおける帯域bにおける入力信号のパワーに応答する「ラウドネス」重み付け因子を与える。たとえば、帯域b内のオーディオ信号の特定ラウドネスに対する近似が使用されてもよい：

同様に、式35において、関数Steer()は、入力信号が方向d_b,m ^→においてパワーを含む度合いに応答する「方向ステアリング」重み付け因子を与える。

各帯域bについて、優勢な音到来方向

〔（d_b,1 ^→、d_b,1 ^→、）とも書く；他も同様〕およびそれらの関連付けられた重み(w_b,1、w_b,2、）は（アルゴリズム・ステップDOL1により）定義されている。次に、アルゴリズム・ステップDOL2により、すべての帯域についての方向および重みが一緒に組み合わされて、方向および重み（それぞれd'_j ^→およびw'_jと称される）の単一の集合が形成される：

ステップS730では、前記複数のオブジェクト位置を決定するために、前記諸集合の和集合にクラスタリング・アルゴリズムが適用される。これは、下記のプロセスDOL3を実行することに関わりうる。

DOL3：優勢な音到来方向の重み付けされた集合から、n_o個のオブジェクト方向を決定する：

次いで、アルゴリズム・ステップDOL3は、ある数（n_o）のオブジェクト位置を決定する。これは、クラスタリング・アルゴリズムによって達成できる。優勢方向が関連付けられた重みをもつ場合、クラスタリング・アルゴリズムは優勢方向の重み付けされたクラスタリングを実行することができる。DOL3についてのいくつかの代替的な方法として、たとえば下記のようなものがある。

DOL3(a) 重み付けされたk平均アルゴリズム（たとえば、非特許文献２参照）が、方向の集合をn_o個の部分集合にクラスタリングすることによって、n_o個の重心の集合（e₁ ^→、e₂ ^→、、e_no ^→）を見出すために使用されてもよい。この重心の集合は、次いで、

により規格化および並べ替えされて、オブジェクト位置の集合（v₁ ^→(k)、v₂ ^→(k)、、v_no ^→(k)）を生成する。ここで、並べ替えperm()は、ブロックからブロックへのオブジェクト位置変化：

を最小にするよう実行される。
Steinley, Douglas、"K-means clustering: A half-century synthesis"、British Journal of Mathematical and Statistical Psychology 59.1 (2006):1-34

DOL3(b) 期待値最大化のような他のクラスタリング・アルゴリズムを使用してもよい。

DOL3(c) n_o＝1の特別な場合においては、優勢な音到来方向の重み付けされた平均が使用され：

次いで規格化されてもよい：

このように、ステップS730におけるクラスタリング・アルゴリズムは、たとえば、k平均アルゴリズム、重み付けされたk平均アルゴリズム、期待値最大化アルゴリズム、および重み付けされた平均アルゴリズムのうちの一つであってもよい。

図8は、図6の方法600との関連で、たとえばステップS640の後に、任意的に実行されうる方法800の例のフローチャートである。

ステップS810では、前記複数の出力信号は空間的フォーマットに再エンコードされて、マルチチャネルの空間的フォーマットのオーディオ・オブジェクト信号が得られる。

ステップS820では、オーディオ・オブジェクト信号が入力オーディオ信号から減算され、マルチチャネルの空間的フォーマットの残差オーディオ信号が得られる。

ステップS830では、残差オーディオ信号に対してダウンミックスが適用されて、ダウンミックスされた残差オーディオ信号が得られる。ここで、ダウンミックスされた残差オーディオ信号のチャネル数は、入力オーディオ信号のチャネル数よりも少なくてもよい。ステップS830は、任意的であってもよい。

次に、ステップS620、S630、およびS640を実装するために使用されうるオブジェクト・オーディオ信号の抽出に関する処理について述べる。この処理は、たとえば図1のブロック103および図2のブロック205によって／において実行されてもよい。DOLプロセス（上述のDOL1ないしDOL3）は、各時間ブロックkにおけるn_o個のオブジェクトの位置v_o ^→(k)を決定する（o∈[1,n_o]）。これらのオブジェクト位置に基づいて、空間的オーディオ入力信号が処理され（たとえば、ブロック103または205において）、n_o個のオブジェクト出力信号およびn_r個の残差出力信号の集合が形成される。このプロセスは、略称EOSによって言及されてもよく、いくつかの実施形態では、このプロセスは、ステップEOS1ないしEOS6によって（たとえば、各時間ブロックkにおいて）達成される。

EOS1：n_o個の行ベクトルを積み重ねることによって、[n_o×n_s]のオブジェクト・デコード行列を決定する。

オブジェクト・デコード行列Dは空間的デコード行列の例である。一般に、空間的デコード行列は、複数のマッピング・ベクトル（たとえば、ベクトルDS(v_i ^→(k))）を含む。各オブジェクト位置について一つのマッピング・ベクトルである。これらのマッピング・ベクトルのそれぞれは、それぞれのオブジェクト位置において空間的デコード関数を評価することによって得られてもよい。空間的デコード関数は、ベクトル値関数（たとえば、マルチチャネルの空間的フォーマットの入力オーディオ信号の1×n_sの行ベクトルが、n_s×1の列ベクトルとして定義される）R³→R^nsであってもよい。

EOS2：n_o個の列ベクトルを積み重ねることによって、[n_s×n_o]の、オブジェクトをエンコードする行列を決定する：

オブジェクト・エンコード行列Eは空間的パン行列の例である。一般に、空間的パン行列は、複数のマッピング・ベクトル（たとえば、ベクトルPS(v_i ^→(k))）を含む。各オブジェクト位置について一つのマッピング・ベクトルである。これらのマッピング・ベクトルのそれぞれは、それぞれのオブジェクト位置において空間的パン関数を評価することによって得られてもよい。空間的パン関数は、ベクトル値関数（たとえば、マルチチャネルの空間的フォーマットの入力オーディオ信号のn_s×1の列ベクトルが、n_s×1の列ベクトルとして定義される）R³→R^nsであってもよい。

EOS3：各帯域b∈[1,n_b]について、かつ各出力オブジェクトo∈[1,n_o]について、オブジェクト利得g_b,oを決定する。ここで、0≦g_b,o≦1である。これらのオブジェクトまたは混合利得は周波数依存性であってもよい。いくつかの実施形態では：

これらのオブジェクト利得係数を配列して、オブジェクト利得行列G_b（これは[n_o×n_o]の対角行列である）を形成する。

オブジェクト利得行列G_bは、以下では利得行列と称されることがある。この利得行列は、周波数サブバンドbについての決定された混合利得を含む。より詳細には、この利得行列は、前記混合利得（適切に順序付けられた、各オブジェクト位置について一つの混合利得）をその対角成分としてもつ対角行列である。

このように、プロセスEOS3は、各周波数サブバンドおよび各オブジェクト位置について、その周波数サブバンドおよびそのオブジェクト位置についての混合利得（たとえば、周波数依存の混合利得）を決定する。このように、プロセスEOS3は、上述の方法600のステップS620の実装の例である。一般に、所与の周波数サブバンドおよび所与のオブジェクト位置についての混合利得の決定は、前記所与のオブジェクト位置と、前記所与の周波数サブバンドにおける入力オーディオ信号の共分散行列（たとえば、規格化された共分散行列）とに基づいていてもよい。共分散行列への依存は、ステアリング関数Steer(C'_b(k),v_o ^→(k))を通じてであってもよい。該ステアリング関数が、入力オーディオ信号の共分散行列C（または規格化された共分散行列C'）に基づいている（たとえば依存する）。すなわち、所与の周波数サブバンドおよび所与のオブジェクト位置についての混合利得は、所与の周波数帯域における入力オーディオ信号についてのステアリング関数を、所与のオブジェクト位置において評価したものに依存しうる。

EOS4 オブジェクト・デコード行列およびオブジェクト利得行列を空間的入力信号S(k,f)に適用し、周波数サブバンドbにわたって総和することにより、周波数領域のオブジェクト出力信号T(k,f)を計算する。

（S(k,f)の定義については、式3を参照）。周波数領域のオブジェクト出力信号T(k,f)は、周波数サブバンド出力信号と称されてもよい。総和は、たとえば、加重和であってもよい。

プロセスEOS4は、上述の方法600のステップS630およびS640の実装の例である。

一般に、ステップS630において、ある周波数サブバンドおよびオブジェクト位置についての周波数サブバンド出力信号を生成することは、利得行列（たとえば行列G_b）および空間的デコード行列（たとえば行列D）を入力オーディオ信号に適用することに関わってもよい。そこで、利得行列および空間的デコード行列が相次いで適用されてもよい。

EOS5：オブジェクト出力信号T(k,f)を再エンコードして、この再エンコードされた信号を空間的入力から差し引くことにより、周波数領域の残差空間的信号を計算する：

[n_r×n_s]の残差ダウンミックス行列Rを（たとえば式29の方法により）決定し、この残差ダウンミックス行列により残差空間的信号を変換して周波数領域の残差出力信号を計算する：

このように、プロセスEOS5は、上述の方法800のステップS810、S820、およびS830の実装の例である。よって、前記複数の出力信号を空間的フォーマットに再エンコードすることは、空間的パン行列（たとえば行列E）に基づいていてもよい。たとえば、前記複数の出力信号を空間的フォーマットに再エンコードすることは、空間的パン行列（たとえば行列E）を前記複数の出力信号のベクトルに適用することに関わってもよい。前記残差オーディオ信号（たとえばS'）にダウンミックスを適用することは、前記残差オーディオ信号にダウンミックス行列（たとえばダウンミックス行列R）を適用することに関わってもよい。

EOSプロセスにおける最初の二つのステップ、EOS1およびEOS2は、空間的オーディオ入力から（D行列を使って）オブジェクト・オーディオ信号を抽出し、これらのオブジェクトを（E行列を使って）空間的オーディオ・フォーマットに再エンコードするのに好適な行列係数の計算に関わる。これらの行列はPS()およびDS()関数を使って形成される。これらの関数の例（入力空間的オーディオ・フォーマットが二次アンビソニックスである場合）は、式10および式11で与えられている。

EOS3ステップは、いくつかの仕方で実装されうる。いくつかの代替的な方法は次のとおり。

EOS3(a)：オブジェクト利得（g_b,o：o∈[1,n_o]）は、式51：

の方法を使って計算されてもよい。この実施形態では、Steer()関数は、空間的入力信号のどの割合が方向v_o ^→(k)に存在するかを示すために使用される。

それにより、各周波数サブバンドおよび各オブジェクト位置についての混合利得（たとえば、周波数依存の混合利得）が決定（たとえば計算）できる。一般に、所与の周波数サブバンドおよび所与のオブジェクト位置についての混合利得の決定は、前記所与のオブジェクト位置と、前記所与の周波数サブバンドにおける入力オーディオ信号の共分散行列（たとえば、規格化された共分散行列）とに基づいていてもよい。共分散行列への依存は、ステアリング関数Steer(C'_b(k),v_o ^→(k))を介してであってもよい。該ステアリング関数が、入力オーディオ信号の共分散行列C（または規格化された共分散行列C'）に基づいている（たとえば依存する）。すなわち、所与の周波数サブバンドおよび所与のオブジェクト位置についての混合利得は、所与の周波数帯域における入力オーディオ信号についてのステアリング関数を、所与のオブジェクト位置において評価したものに依存しうる。

EOS3(b)：一般に、所与の周波数サブバンドおよび所与のオブジェクト位置についての混合利得を決定することは、所与のオブジェクト位置の時間を追った変化率にさらに基づいていてもよい。たとえば、混合利得は、所与のオブジェクト位置の変化率に依存して減衰させられてもよい。

換言すれば、オブジェクト利得は、いくつかの利得因子（そのそれぞれは、一般に、範囲[0,1]内の実数値である）を組み合わせることによって計算されうる。たとえば：

ここで、

であり、g_b,o ^(Jump)は、オブジェクト位置が静的である

ときは常にほぼ1に等しく、オブジェクト位置が時間ブロックのまわりの領域で有意に「ジャンプしている」とき（たとえば、ある閾値αについて

であるとき）はほぼ0に等しい利得因子であるよう計算される。

利得因子g_b,o ^(Jump)は、時間ブロックk−1の間にオブジェクトが存在しなかった位置に時間ブロックkにおいて新たなオブジェクトが「出現する」ときに起こりうるように、オブジェクト位置が急速に変化しているときはいつでも、オブジェクト振幅を減衰させることを意図されている。

いくつかの実施形態では、g_b,o ^(Jump)は、まずjump値：

を計算し、次いでg_b,o ^(Jump)：

を計算することによって計算される。

いくつかの実施形態では、αについての好適な値は0.5であり、一般に、0.05＜α＜1となるよう選択する。

図5は、本願の原理による例示的な方法500を示している。方法500は、501で、空間的オーディオ情報を受領することを含む。空間的オーディオ情報は、図1に示されるn_sチャネルの空間的オーディオ・フォーマット101および図2に示されるs_i(t)（チャネルiについての入力信号）201と整合しうる。502では、オブジェクト位置が、受領された空間的オーディオ情報に基づいて決定されてもよい。たとえば、図1に示されるブロック102および図2に示されるブロック204との関連で述べたように、オブジェクト位置が決定されてもよい。ブロック502は、オブジェクト位置メタデータ504を出力してもよい。オブジェクト位置メタデータ504は、図1に示されるオブジェクト位置メタデータ111および図2に示されるv_o ^→(k)（オブジェクトoの位置）211と同様であってもよい。

503では、受領された空間的オーディオ情報に基づいて、オブジェクト・オーディオ信号が抽出されてもよい。たとえば、オブジェクト・オーディオ信号は、図1に示されるブロック103および図2に示されるブロック205に関連して述べたように抽出されてもよい。ブロック503は、オブジェクト・オーディオ信号505を出力してもよい。オブジェクト・オーディオ信号505は、図1に示されるオブジェクト／オーディオ信号112および図2に示されるオブジェクトoについての出力信号213と同様であってもよい。ブロック503はさらに、残差オーディオ信号506を出力してもよい。残差オーディオ信号506は、図1に示される残差オーディオ信号113および図2に示される出力残差オーディオ信号r 215と同様であってもよい。

マルチチャネルの空間的フォーマットの入力オーディオ信号を処理する諸方法が上記に記載されている。本開示は、同様に、マルチチャネルの空間的フォーマットの入力オーディオ信号を処理するための装置に関することが理解される。装置は、上記のプロセスのいずれか、たとえば、方法600、700、および800のステップ、ならびにそれらのそれぞれの実装DOL1〜DOL3およびEOS1〜EOS5を実行するよう適応されたプロセッサを有していてもよい。そのような装置は、さらに、前記プロセッサに結合されたメモリを有していてもよく、前記メモリは、前記プロセッサによる実行のためのそれぞれの命令を記憶する。

本開示に記載された実装に対するさまざまな修正が、当業者には容易に明らかとなることがありうる。本明細書で定義される一般原理は、本開示の精神または範囲から逸脱することなく、他の実装に適用されてもよい。よって、特許請求の範囲は、本明細書に示されている実装に限定されることは意図されておらず、本開示、本稿に開示される原理および新規な特徴と整合する最も広い範囲を与えられるべきである。

本稿に記載される方法およびシステムは、ソフトウェア、ファームウェアおよび／またはハードウェアとして実装されてもよい。ある種のコンポーネントは、たとえば、デジタル信号プロセッサまたはマイクロプロセッサ上で動作するソフトウェアとして実装されてもよい。他のコンポーネントは、たとえば、ハードウェアとして、およびまたは特定用途向け集積回路として実装されてもよい。上述の方法およびシステムにおいて遭遇される信号は、ランダム・アクセス・メモリまたは光記憶媒体のような媒体に記憶されてもよい。それらの信号は、無線ネットワーク、衛星ネットワーク、ワイヤレス・ネットワーク、または有線ネットワーク、たとえばインターネットなどのネットワークを介して転送されてもよい。本稿に記載される方法およびシステムを利用する典型的な装置は、オーディオ信号を記憶および／またはレンダリングするために使用される可搬式電子装置または他の消費者装置である。

本発明のさらなる実装例は、以下に列挙される箇条書き実施例（enumerated example embodiment、EEE）に要約される。

第1のEEEは、マルチチャネルの空間的オーディオ・フォーマットの入力信号を処理するための方法に関する。本方法は、受領された空間的オーディオ・フォーマットの入力信号に基づいてオブジェクト位置メタデータを決定し、受領された空間的オーディオ・フォーマットの入力信号に基づいてオブジェクト・オーディオ信号を抽出することを含む。受領された空間的オーディオ・フォーマットの入力信号に基づいてオブジェクト・オーディオ信号を抽出することは、オブジェクト・オーディオ信号および残差オーディオ信号を決定することを含む。

第2のEEEは、前記第一のEEEによる方法に関し、抽出された各オーディオ・オブジェクト信号は、対応するオブジェクト位置メタデータを有する。

第3のEEEは、第1または第2のEEEによる方法に関し、オブジェクト位置メタデータは、オブジェクトの到来方向を示す。

第4のEEEは、第1ないし第3のEEEのうちいずれか一項による方法に関し、オブジェクト位置メタデータは、受領された空間的オーディオ・フォーマットの入力信号の統計から導出される。

第5のEEEは、第1ないし第4のEEEのうちいずれか一項による方法に関し、オブジェクト位置メタデータは随時変化する。

第6のEEEは、第1ないし第5のEEEのうちいずれか一項による方法に関し、前記オブジェクト・オーディオ信号は、前記受領された空間的オーディオ・フォーマットの入力信号のいくつかのサブバンドのそれぞれにおける線形混合行列に基づいて決定される。

第7のEEEは、第1ないし第6のEEEのうちいずれか一項による方法に関し、前記残差信号はマルチチャネル残差信号である。

第8のEEEは、第7のEEEによる方法に関し、前記マルチチャネル残差信号は、受領された空間的オーディオ・フォーマットの入力信号のチャネル数よりも少ない数のチャネルから構成される。

第9のEEEは、第1ないし第8のEEEのうちいずれか一項による方法に関し、オブジェクト・オーディオ信号の抽出は、前記空間的オーディオ・フォーマットの入力信号から前記オブジェクト・オーディオ信号の寄与を差し引くことによって、決定される。

第10のEEEは、第1ないし第9のEEEのうちいずれか一項による方法に関し、オブジェクト・オーディオ信号を抽出することは、前記一つまたは複数のオブジェクト・オーディオ信号および前記残差信号を生成するために、後続の処理によって使用されうる線形混合行列係数を決定することを含む。

第11のEEEは、第1〜第10のEEEのうちいずれか一項による方法に関し、行列係数は、周波数帯ごとに異なる。

第12のEEEは、マルチチャネルの空間的オーディオ・フォーマットの入力信号を処理するための装置に関する。本装置は、受領された空間的オーディオ・フォーマットの入力信号に基づいてオブジェクト位置メタデータを決定するプロセッサと、受領された空間的オーディオ・フォーマットの入力信号に基づいてオブジェクト・オーディオ信号を抽出する抽出器とを備える。受領された空間的オーディオ・フォーマットの入力信号に基づいてオブジェクト・オーディオ信号を抽出することは、オブジェクト・オーディオ信号および残差オーディオ信号を決定することを含む。

Claims

マルチチャネルの空間的フォーマットの入力オーディオ信号を処理する方法であって：
前記入力オーディオ信号に基づいてオブジェクト位置を決定し；
決定されたオブジェクト位置に基づいて、前記入力オーディオ信号からオブジェクト・オーディオ信号を抽出することを含み、
前記オブジェクト位置を決定することは、いくつかの周波数サブバンドのそれぞれについて、一つまたは複数の音到来方向を決定することを含む、
方法。
前記決定されたオブジェクト位置に基づいて、前記入力オーディオ信号からオブジェクト・オーディオ信号を抽出することは：
前記入力オーディオ信号の前記いくつかの周波数サブバンドの各周波数サブバンドについて、各オブジェクト位置について、その周波数サブバンドおよびそのオブジェクト位置についての混合利得を決定し；
前記いくつかの周波数サブバンドの各周波数サブバンドについて、各オブジェクト位置について、前記入力オーディオ信号、その周波数サブバンドおよびそのオブジェクト位置についての前記混合利得、およびその空間的フォーマットの空間的マッピング関数に基づいて、周波数サブバンド出力信号を生成し；
各オブジェクト位置について、そのオブジェクト位置についての前記周波数サブバンド出力信号を足し合わせることによって出力信号を生成することを含む、
請求項１記載の方法。
前記オブジェクト位置についての前記混合利得は、周波数依存である、請求項２記載の方法。
前記空間的フォーマットが複数のチャネルを定義し；
前記空間的マッピング関数は、前記空間的フォーマットの前記複数のチャネルから所与の位置におけるオーディオ信号を抽出するための、その空間的フォーマットの空間的デコード関数である、
請求項２または３記載の方法。
前記空間的フォーマットの空間的パン関数は、ソース位置におけるソース信号を、前記空間的フォーマットによって定義される前記複数のチャネルにマッピングするための関数であり、
前記空間的デコード関数は、前記空間的パン関数および前記空間的デコード関数の相続く適用が、単位球上のすべての位置について1の利得を与えるように定義される、
請求項４記載の方法。
所与の周波数サブバンドおよび所与のオブジェクト位置について前記混合利得を決定することは、その所与のオブジェクト位置と、その所与の周波数サブバンドにおける前記入力オーディオ信号の共分散行列とに基づく、請求項２記載の方法。
前記所与の周波数サブバンドおよび前記所与のオブジェクト位置についての前記混合利得は、前記所与の周波数サブバンドにおける前記入力オーディオ信号についてのステアリング関数を、前記所与のオブジェクト位置において評価したものに依存する、請求項６記載の方法。
前記ステアリング関数は、前記所与の周波数サブバンドにおける前記入力オーディオ信号の共分散行列に基づく、請求項７記載の方法。
前記所与の周波数サブバンドおよび前記所与のオブジェクト位置についての前記混合利得を決定することは、前記所与のオブジェクト位置の時間を追った変化率にさらに基づき、前記混合利得は、前記所与のオブジェクト位置の変化率に依存して減衰させられる、請求項６ないし８のうちいずれか一項記載の方法。
各周波数サブバンドについて、各オブジェクト位置について、周波数サブバンド出力信号を生成することは：
利得行列および空間的デコード行列を前記入力オーディオ信号に適用することを含み、前記利得行列は、その周波数サブバンドについての決定された混合利得を含み、
前記空間的デコード行列は、各オブジェクト位置について一つで、複数のマッピング・ベクトルを含み、各マッピング・ベクトルは、それぞれのオブジェクト位置で前記空間的デコード関数を評価することによって得られる、
請求項２記載の方法。
前記複数の出力信号を前記空間的フォーマットに再エンコードして、マルチチャネルの空間的フォーマットのオーディオ・オブジェクト信号を得て；
前記入力オーディオ信号から該オーディオ・オブジェクト信号を減算して、マルチチャネルの空間的フォーマットの残差オーディオ信号を得ることをさらに含む、
請求項１記載の方法。
前記残差オーディオ信号にダウンミックスを適用して、ダウンミックスされた残差オーディオ信号を得ることをさらに含み、前記ダウンミックスされた残差オーディオ信号のチャネル数は、前記入力オーディオ信号のチャネル数より少ない、
請求項１１記載の方法。
前記オブジェクト位置を決定することはさらに：
前記いくつかの周波数サブバンドについての優勢な音到来方向の諸集合の和集合を決定し；
前記和集合に対してクラスタリング・アルゴリズムを適用して、前記複数のオブジェクト位置を決定することを含む、
請求項１記載の方法。
音到来の優勢方向の前記集合を決定することは：
その周波数サブバンド内の前記入力オーディオ信号の共分散行列から諸要素を抽出することと；
その周波数サブバンド内の前記オーディオ入力信号の投影関数の極大を決定することであって、前記投影関数は、前記オーディオ入力信号の前記共分散行列および前記空間的フォーマットの空間的パン関数に基づく、こととのうちの少なくとも一方に関わる、
請求項１３記載の方法。
各優勢方向は、関連する重みをもち；
前記クラスタリング・アルゴリズムは、前記優勢方向の重み付けされたクラスタリングを実行する、
請求項１３または１４記載の方法。
前記クラスタリング・アルゴリズムは：k平均アルゴリズム、重み付けされたk平均アルゴリズム、期待値最大化アルゴリズム、および重み付けされた平均アルゴリズムのうちの一つである、
請求項１３ないし１５のうちいずれか一項記載の方法。
前記オブジェクト位置を示すオブジェクト位置メタデータを生成することをさらに含む、
請求項１ないし１６のうちいずれか一項記載の方法。
前記オブジェクト・オーディオ信号は、受領された空間的オーディオ・フォーマットの入力信号の前記いくつかのサブバンドの各サブバンドにおいて線形混合行列に基づいて決定される、請求項１ないし１７のうちいずれか一項記載の方法。
行列係数はそれぞれの周波数帯域ごとに異なる、請求項１８記載の方法。
オブジェクト・オーディオ信号を抽出することは、前記入力オーディオ信号から前記オブジェクト・オーディオ信号の寄与を差し引くことによって決定される、請求項１ないし１９のうちいずれか一項記載の方法。
マルチチャネルの空間的フォーマットの入力オーディオ信号を処理するための装置であって、当該装置は：
前記入力オーディオ信号を解析して、前記入力オーディオ信号に含まれるオーディオ・オブジェクトの複数のオブジェクト位置を決定する段階であって、該解析することは、いくつかの周波数サブバンドの各周波数サブバンドについて、一つまたは複数の優勢な音到来方向を決定することを含む、段階と；
前記入力オーディオ信号の前記いくつかの周波数サブバンドの各周波数サブバンドについて、各オブジェクト位置について、その周波数サブバンドおよびそのオブジェクト位置についての混合利得を決定する段階と；
前記いくつかの周波数サブバンドの各周波数サブバンドについて、各オブジェクト位置について、前記入力オーディオ信号、その周波数サブバンドおよびそのオブジェクト位置についての前記混合利得、およびその空間的フォーマットの空間的マッピング関数に基づいて、周波数サブバンド出力信号を生成する段階と；
各オブジェクト位置について、そのオブジェクト位置についての前記周波数サブバンド出力信号を足し合わせることによって出力信号を生成する段階とを実行するよう適応されたプロセッサを有する、
装置。