JP2022062282A

JP2022062282A - 空間オーディオシステムにおける利得制御

Info

Publication number: JP2022062282A
Application number: JP2022024358A
Authority: JP
Inventors: ヨーママキネン; Maekinen Jorma; ミッコタンミ; Tammi Mikko; ミッコ・ヴィッレライティネン; Laitinen Mikko-Ville; ユッシヴィロライネン; Virolainen Jussi
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2016-09-28
Filing date: 2022-02-21
Publication date: 2022-04-19
Also published as: EP3520216A1; GB2554447A; WO2018060549A1; CN109804559B; JP7229925B2; US20190289420A1; GB201616479D0; US10869155B2; CN109804559A; EP3520216A4; EP3520216B1; JP2019535216A

Abstract

【課題】入力の複雑性と、さらなる遅延をもたらさないことの両方を考慮して利得制御を適用可能にする装置及び方法を提供する。【解決手段】プロセッサ兼レンダラ１００は、基準位置に対して少なくとも１つの音源の位置を設け、音源に対応付けられた入力オーディオ信号を分析し、入力オーディオ信号および基準位置に対する音源の位置に基づいて、利得値を決定し、１つの入力オーディオ信号と、方向伝達関数対と、１つの利得値と、基準位置に対する音源の位置に基づいて、出力チャネルを合成する。【選択図】図１ｂ

Description

本願は、頭部追跡入力を利用したオーディオシステムにおいて、利得制御を実現する装置および方法に関する。本発明はさらに、オーディオ信号の空間的再生を実現可能とするべく、頭部追跡入力を利用した空間オーディオシステムにおいて、利得制御を実現する装置および方法に関するが、これに限定されるものではない。

背景

空間場において、多数の信号源からオーディオ信号を取得し、提供するには、莫大な処理労力が伴う。例えば、劇場や講堂等の音響環境における話し手や演者のようなオーディオ信号源からのキャプチャ、ミキシングを実行して、聴き手に届け、効果的な音響空間を作り出すのに必要な処理は並大抵ではない。

一般的に用いられているシステムでは、近接または外部マイクが利用される。例えば、ラべリアマイクをユーザに装着したり、オーディオ信号を取得するため、ブームポールに取り付けたマイクを話し手、または空間オーディオ信号外のその他の信号源に近付けたりすることが行われている。これら信号は、マイクアレイから取得された空間（あるいは環境または音響場）オーディオ信号とミキシングされて、決定されたユーザからの方向入力に基づいて、ユーザに提供されうる。

録音状況に応じて、取得されるオーディオコンテンツのレベルやダイナミクスは大いに変動する。典型的には、遠くまたは音の小さな音源からの聴き取りを容易にするためには、レンダリングまたはミキシングされたオーディオ信号ヘッドルーム、すなわちオーディオ信号が、クリッピングにより再生システムまたはオーディオ信号を損傷することなく一時的に「最大レベル」を超越しうる量を最小限に抑えるべきである。これは、音を聴く環境で大きい騒音や、ヘッドホンやスピーカ出力に関する音圧制限を伴う、携帯型プレーヤに関して特に重要である。

典型的には、頭部追跡システムや、ヘッドホンを利用して音を聴いているユーザは、その頭部の動きに応じて動くミキシングされたオーディオ信号または音景が、バイノーラル（binaural）形式にレンダリングされる。すなわち、音を聴くユーザの位置が、レンダリングされた（バイノーラル）オーディオ信号のレベルに影響を及ぼす（一方で、典型的には向きのみが考慮される）。例えば、耳が直接音源に向いているため高周波数が増幅されるか、耳が音源を向いていないため高周波数が減衰するかにより、出力レベルが変化しうる。オーディオ信号におけるこの向きまたは位置の変化に対応可能として、クリッピングを防止するためには、オーディオコンテンツにさらなるヘッドルームが必要となるが、これは望ましくない。

さらに、オーディオ信号の「音量」を調整するための従来の自動利得制御（Automatic Gain Control：ＡＧＣ）およびダイナミックレンジ圧縮（Dynamic Range Compression：ＤＲＣ）アルゴリズムでは、オーディオ信号を処理、出力する前に、遅延をかける必要がある。これは頭部追跡入力を利用した音景のレンダリングには不都合である。音景の動きは、時間遅延を感じさせずに頭部の動きに準じるのが理想である。さもなければ、空間オーディオ品質が極めて低く知覚されてしまうのである。したがって、レンダリングされたオーディオ信号に、知覚可能な遅延をもたらすようなレベル制御関数は適用できない。

したがって、オーディオシステムにおいて、入力の複雑性と、さらなる遅延をもたらさないことの両方を考慮して利得制御を適用可能にする手法の開発が望まれている。

摘要

本願は、聴き手の位置が、合成されたオーディオのレベルに影響しうる、空間オーディオ再生システムにおける利得制御に関する。利得制御は、利得制御関数に遅延を伴うことなく合成されたオーディオが、位置の変化に反応できるようにするものである。これは、音源と聴き手の位置についての（推定された、または既知の）情報と、入力の特徴、さらに、空間オーディオ再生システムを利用してレンダリングされたバイノーラル出力信号のレベルを推定し、利得を適用することで実現された。

第１の態様によると装置が提供され、該装置は、基準位置に対して少なくとも１つの音源の位置を設け、前記少なくとも１つの音源に対応付けられた少なくとも１つの入力オーディオ信号を分析し、前記少なくとも１つの入力オーディオ信号および前記基準位置に対する前記少なくとも１つの音源の位置に基づいて、少なくとも１つの利得値を決定し、前記少なくとも１つの入力オーディオ信号と、方向伝達関数対と、前記少なくとも１つの利得値と、前記基準位置に対する前記少なくとも１つの音源の位置に基づいて、少なくとも２つの出力チャネルを合成するように構成されたプロセッサを備える。

前記基準位置に対して前記少なくとも１つの音源の位置を設けるように構成された前記プロセッサは、少なくとも２つのマイクオーディオ信号を分析し、前記基準位置に対する前記音源の位置を決定するように構成されてもよい。

前記基準位置に対して前記少なくとも１つの音源の位置を設けるように構成された前記プロセッサは、前記少なくとも１つの入力オーディオ信号に対応付けられたメタデータから、前記基準位置に対する前記音源の位置を取得するように構成されてもよい。

前記少なくとも１つの入力信号に対応付けられた前記メタデータは、ある周波数帯域に対する前記メタデータの方向パラメータを含んでもよい。

前記少なくとも１つの音源に対応付けられた前記少なくとも１つの入力オーディオ信号を分析するように構成された前記プロセッサは、少なくとも１つの入力オーディオ信号レベルを決定するように構成されてもよく、前記少なくとも１つの利得値は、前記少なくとも１つの入力オーディオ信号レベルおよび前記基準位置に対する前記少なくとも１つの音源の位置に基づいて決定されてもよい。

前記プロセッサは、前記基準位置に対する追跡部の位置および／または向きを決定するようにさらに構成されてもよい。

前記プロセッサは、前記少なくとも１つの音源と前記追跡部との間の位置および／または向きの差に基づいて、レベル制御利得を決定するようにさらに構成されてもよい。

前記少なくとも１つの音源と前記追跡部との間の位置および／または向きの差に基づいて、レベル制御利得を決定するように構成される前記プロセッサは、前記少なくとも１つの入力オーディオ信号レベルに基づいて、少なくとも１つのレベル制御利得関数を決定し、前記少なくとも１つのレベル制御利得関数に適用される、前記少なくとも１つの音源と前記追跡部との間の位置および／または向きの差に基づいて、前記レベル制御利得を決定してもよい。

前記プロセッサは、前記入力オーディオ信号と、前記方向伝達関数対と、前記少なくとも１つのレベル制御利得値と、前記少なくとも１つの音源と前記追跡部との位置および／または向きの差に基づいて、前記少なくとも２つの出力チャネルを合成するように構成されてもよい。

前記追跡部の前記位置および／または向きを決定するように構成された前記プロセッサは、デジタルコンパスからの方向、ジャイロスコープからの方向、ビーコン測位システムからの方向、前記位置が未来の実際の追跡部位置を推定したものとなるように慣性および質量でモデル化された方向、の内の少なくとも１つを受信するように構成されてもよい。

前記少なくとも１つの音源と前記追跡部との間の位置および／または向きの差に基づいて、前記レベル制御利得を決定するように構成されたプロセッサは、前記少なくとも１つの音源と前記追跡部との間の位置および／または向きの差に基づいて、前記入力オーディオ信号に対応付けられた第１の周波数帯域に対する、第１の周波数帯域用レベル制御利得を決定し、前記少なくとも１つの音源と前記追跡部との間の位置および／または向きの差に基づいて、前記入力オーディオ信号に対応付けられた第２の周波数帯域に対する、第２の周波数帯域用レベル制御利得を決定するように構成されてもよい。

前記少なくとも１つの音源と前記追跡部との間の位置および／または向きの差に基づいて、前記レベル制御利得を決定するように構成されたプロセッサは、前記少なくとも１つの音源と前記追跡部との間の位置および／または向きの差に基づいて、第１の出力チャネルに対する、第１の出力チャネル用レベル制御利得を決定し、前記少なくとも１つの音源と前記追跡部との間の位置および／または向きの差に基づいて、第２の出力チャネルに対する、第２の出力チャネル用レベル制御利得を決定するように構成されてもよい。

前記入力オーディオ信号と、前記方向伝達関数対と、前記少なくとも１つのレベル制御利得値と、前記少なくとも１つの音源と前記追跡部との間の位置および／または向きの差に基づいて、前記少なくとも２つの出力チャネルを合成するように構成された前記プロセッサは、前記入力オーディオ信号への、前記少なくとも１つの音源と前記追跡部との間の位置および／または向きの差に基づく第１の頭部伝達関数と、モデル化された左耳位置の組合せに、左レベル制御利得値をかけることで、前記少なくとも２つの出力チャネルの左出力チャネルオーディオ信号を生成し、前記入力オーディオ信号への、前記少なくとも１つの音源と前記追跡部との間の位置および／または向きの差に基づく第２の頭部伝達関数と、モデル化された右耳位置の組合せに、右レベル制御利得値をかけることで、前記少なくとも２つの出力チャネルの右出力チャネルオーディオ信号を生成するように構成されてもよい。

前記追跡部は、前記追跡部に対応付けられた方向を生成するように構成されたヘッドバンドを備え、前記方向はユーザの聴き取り方向に対応付けられてもよい。

前記プロセッサは、出力信号値の範囲が定義されたパルス符号変調方式のダイナミックレンジに含まれるように、前記少なくとも２つの出力チャネルの出力信号値を制限するようにさらに構成されてもよい。

前記少なくとも２つの出力チャネルは、オーバヘッドが最小限に抑えられていてもよい。

前記基準位置は、少なくとも１つの空間的に取得される音源に対する原点位置および／または向きと、カメラに対する原点位置および／または向きと、前記少なくとも１つの音源が存在する音場面に対する原点位置および／または向きと、の内の少なくとも１つであってもよい。

第２の態様によると方法が提供され、該方法は、基準位置に対して少なくとも１つの音源の位置を設けることと、前記少なくとも１つの音源に対応付けられた少なくとも１つの入力オーディオ信号を分析し、前記少なくとも１つの入力オーディオ信号および前記基準位置に対する前記少なくとも１つの音源の位置に基づいて、少なくとも１つの利得値を決定することと、前記少なくとも１つの入力オーディオ信号と、方向伝達関数対と、前記少なくとも１つの利得値と、前記基準位置に対する前記少なくとも１つの音源の位置に基づいて、少なくとも２つの出力チャネルを合成することと、を含む。

前記基準位置に対して前記少なくとも１つの音源の位置を設けることは、少なくとも２つのマイクオーディオ信号を分析し、前記基準位置に対する前記音源の位置を決定することを含んでもよい。

前記基準位置に対して前記少なくとも１つの音源の位置を設けることは、前記少なくとも１つの入力オーディオ信号に対応付けられたメタデータから、前記基準位置に対する前記音源の位置を取得することを含んでもよい。

前記少なくとも１つの音源に対応付けられた前記少なくとも１つの入力オーディオ信号を分析することは、少なくとも１つの入力オーディオ信号レベルを決定することを含んでもよく、前記少なくとも１つの利得値を決定することは、前記少なくとも１つの入力オーディオ信号レベルおよび前記基準位置に対する前記少なくとも１つの音源の位置に基づいて、前記少なくとも１つの利得値を決定することを含んでもよい。

前記方法は、前記基準位置に対する追跡部の位置および／または向きを決定することをさらに含んでもよい。

前記方法は、前記少なくとも１つの音源と前記追跡部との間の位置および／または向きの差に基づいて、レベル制御利得を決定することをさらに含んでもよい。

前記少なくとも１つの音源と前記追跡部との間の位置および／または向きの差に基づいて、前記レベル制御利得を決定することは、前記少なくとも１つの入力オーディオ信号レベルに基づいて、少なくとも１つのレベル制御利得関数を決定することと、前記少なくとも１つのレベル制御利得関数に適用される、前記少なくとも１つの音源と前記追跡部との間の位置および／または向きの差に基づいて、前記レベル制御利得を決定することと、を含んでもよい。

前記方法は、前記入力オーディオ信号と、前記方向伝達関数対と、前記少なくとも１つのレベル制御利得値と、前記少なくとも１つの音源と前記追跡部との位置および／または向きの差に基づいて、前記少なくとも２つの出力チャネルを合成することをさらに含んでもよい。

前記追跡部の位置および／または向きを決定することは、デジタルコンパスからの方向、ジャイロスコープからの方向、ビーコン測位システムからの方向、前記位置が未来の実際の追跡部位置を推定したものとなるように慣性および質量でモデル化された方向、の内の少なくとも１つを受信することを含んでもよい。

前記少なくとも１つの音源と前記追跡部との間の位置および／または向きの差に基づいて、前記レベル制御利得を決定することは、前記少なくとも１つの音源と前記追跡部との間の位置および／または向きの差に基づいて、前記入力オーディオ信号に対応付けられた第１の周波数帯域に対する、第１の周波数帯域用レベル制御利得を決定することと、前記少なくとも１つの音源と前記追跡部との間の位置および／または向きの差に基づいて、前記入力オーディオ信号に対応付けられた第２の周波数帯域に対する、第２の周波数帯域用レベル制御利得を決定すること、を含んでもよい。

前記少なくとも１つの音源と前記追跡部との間の位置および／または向きの差に基づいて、前記レベル制御利得を決定することは、前記少なくとも１つの音源と前記追跡部との間の位置および／または向きの差に基づいて、第１の出力チャネルに対する、第１の出力チャネル用レベル制御利得を決定することと、前記少なくとも１つの音源と前記追跡部との間の位置および／または向きの差に基づいて、第２の出力チャネルに対する、第２の出力チャネル用レベル制御利得を決定することとを含んでもよい。

前記入力オーディオ信号と、前記方向伝達関数対と、前記少なくとも１つのレベル制御利得値と、前記少なくとも１つの音源と前記追跡部との間の位置および／または向きの差に基づいて、前記少なくとも２つの出力チャネルを合成することは、前記入力オーディオ信号への、前記少なくとも１つの音源と前記追跡部との間の位置および／または向きの差に基づく第１の頭部伝達関数と、モデル化された左耳位置の組合せに、左レベル制御利得値をかけることで、前記少なくとも２つの出力チャネルの左出力チャネルオーディオ信号を生成することと、前記入力オーディオ信号への、前記少なくとも１つの音源と前記追跡部との間の位置および／または向きの差に基づく第２の頭部伝達関数と、モデル化された右耳位置の組合せに、右レベル制御利得値をかけることで、前記少なくとも２つの出力チャネルの右出力チャネルオーディオ信号を生成することとを含んでもよい。

前記方法は、出力信号値の範囲が定義されたパルス符号変調方式のダイナミックレンジに含まれるように、前記少なくとも２つの出力チャネルの出力信号値を制限することをさらに含んでもよい。

前記少なくとも２つの出力チャネルは、オーバヘッドが最小限に抑えられてもよい。

前記基準位置は、少なくとも１つの空間的に取得される音源に対する原点位置および／または向きと、カメラに対する原点位置および／または向きと、前記少なくとも１つの音源が存在する音場面に対する原点位置および／または向きと、の内の少なくとも１つであってもよい

第３の態様によると装置が提供され、該装置は、基準位置に対して少なくとも１つの音源の位置を設ける手段と、前記少なくとも１つの音源に対応付けられた少なくとも１つの入力オーディオ信号を分析し、前記少なくとも１つの入力オーディオ信号および前記基準位置に対する前記少なくとも１つの音源の位置に基づいて、少なくとも１つの利得値を決定する手段と、前記少なくとも１つの入力オーディオ信号と、方向伝達関数対と、前記少なくとも１つの利得値と、前記基準位置に対する前記少なくとも１つの音源の位置に基づいて、少なくとも２つの出力チャネルを合成する手段を備える。

前記基準位置に対して前記少なくとも１つの音源の位置を設ける前記手段は、少なくとも２つのマイクオーディオ信号を分析し、前記基準位置に対する前記音源の位置を決定する手段を備えてもよい。

前記基準位置に対して前記少なくとも１つの音源の位置を設ける前記手段は、前記少なくとも１つの入力オーディオ信号に対応付けられたメタデータから、前記基準位置に対する前記音源の位置を取得する手段を備えてもよい。

前記少なくとも１つの音源に対応付けられた前記少なくとも１つの入力オーディオ信号を分析する手段は、少なくとも１つの入力オーディオ信号レベルを決定する手段を備えてもよく、前記少なくとも１つの利得値を決定する手段は、前記少なくとも１つの入力オーディオ信号レベルおよび前記基準位置に対する前記少なくとも１つの音源の位置に基づいて、前記少なくとも１つの利得値を決定する手段を備えてもよい。

前記装置は、前記基準位置に対する追跡部の位置および／または向きを決定する手段をさらに備えてもよい。

前記装置は、前記少なくとも１つの音源と前記追跡部との間の位置および／または向きの差に基づいて、レベル制御利得を決定する手段をさらに備えてもよい。

前記少なくとも１つの音源と前記追跡部との間の位置および／または向きの差に基づいて、レベル制御利得を決定する手段は、前記少なくとも１つの入力オーディオ信号レベルに基づいて、少なくとも１つのレベル制御利得関数を決定する手段と、前記少なくとも１つのレベル制御利得関数に適用される、前記少なくとも１つの音源と前記追跡部との間の位置および／または向きの差に基づいて、前記レベル制御利得を決定する手段とを備えてもよい。

前記装置は、前記入力オーディオ信号と、前記方向伝達関数対と、前記少なくとも１つのレベル制御利得値と、前記少なくとも１つの音源と前記追跡部との位置および／または向きの差に基づいて、前記少なくとも２つの出力チャネルを合成する手段をさらに備えてもよい。

前記追跡部の位置および／または向きを決定する手段は、デジタルコンパスからの方向、ジャイロスコープからの方向、ビーコン測位システムからの方向、前記位置が未来の実際の追跡部位置を推定したものとなるように慣性および質量でモデル化された方向、の内の少なくとも１つを受信する手段を備えてもよい。

前記少なくとも１つの音源と前記追跡部との間の位置および／または向きの差に基づいて、前記レベル制御利得を決定する手段は、前記少なくとも１つの音源と前記追跡部との間の位置および／または向きの差に基づいて、前記入力オーディオ信号に対応付けられた第１の周波数帯域に対する、第１の周波数帯域用レベル制御利得を決定する手段と、前記少なくとも１つの音源と前記追跡部との間の位置および／または向きの差に基づいて、前記入力オーディオ信号に対応付けられた第２の周波数帯域に対する、第２の周波数帯域用レベル制御利得を決定する手段と、を備えてもよい。

前記少なくとも１つの音源と前記追跡部との間の位置および／または向きの差に基づいて、前記レベル制御利得を決定する手段は、前記少なくとも１つの音源と前記追跡部との間の位置および／または向きの差に基づいて、第１の出力チャネルに対する、第１の出力チャネル用レベル制御利得を決定する手段と、前記少なくとも１つの音源と前記追跡部との間の位置および／または向きの差に基づいて、第２の出力チャネルに対する、第２の出力チャネル用レベル制御利得を決定する手段とを備えてもよい。

前記入力オーディオ信号と、前記方向伝達関数対と、前記少なくとも１つのレベル制御利得値と、前記少なくとも１つの音源と前記追跡部との間の位置および／または向きの差に基づいて、前記少なくとも２つの出力チャネルを合成する前記手段は、前記入力オーディオ信号への、前記少なくとも１つの音源と前記追跡部との間の位置および／または向きの差に基づく第１の頭部伝達関数と、モデル化された左耳位置の組合せに、左レベル制御利得値をかけることで、前記少なくとも２つの出力チャネルの左出力チャネルオーディオ信号を生成する手段と、前記入力オーディオ信号への、前記少なくとも１つの音源と前記追跡部との間の位置および／または向きの差に基づく第２の頭部伝達関数と、モデル化された右耳位置の組合せに、右レベル制御利得値をかけることで、前記少なくとも２つの出力チャネルの右出力チャネルオーディオ信号を生成する手段とを備えてもよい。

前記装置は、出力信号値の範囲が定義されたパルス符号変調方式のダイナミックレンジに含まれるように、前記少なくとも２つの出力チャネルの出力信号値を制限する手段をさらに備えてもよい。

前記基準位置は、少なくとも１つの空間的に取得される音源に対する原点位置および／または向きと、カメラに対する原点位置および／または向きと、前記少なくとも１つの音源が存在する音場面に対する原点位置および／または向きと、の内の少なくとも１つであってもよい。媒体に記憶されたコンピュータプログラム製品により、装置に本明細書に記載の方法を実行させてもよい。

電子デバイスは、本明細書に記載の装置を含んでもよい。

チップセットは、本明細書に記載の装置を含んでもよい。

本願の実施形態は、現状の技術に関する問題を解決することを目的とする。

本願をよりよく理解できるよう、以下の添付の図を例示的に参照する。
図１ａは、いくつかの実施形態の実施に適した、分散型オーディオキャプチャおよび処理システムおよび装置を概略的に示す。図１ｂは、いくつかの実施形態の実施に適した、分散型オーディオキャプチャおよび処理システムおよび装置を概略的に示す。図２は、マイクアレイに対する音源の例示的向きを概略的に示す。図３は、頭部追跡部第１の向き、すなわち基準向きに対する音源の例示的向きを概略的に示す。図４は、頭部追跡部第２の向き、すなわち回転向きに対する音源の例示的向きを概略的に示す。図５は、例示的オーディオ信号に対する、第１のおよび第２の向きの間の頭部追跡部の向きの差に応じた出力レベル分布の例を概略的に示す。図６は、例示的オーディオ信号に対する、第１のおよび第２の向きの間の頭部追跡部の向きの差に応じた出力レベル周波数分布の例を概略的に示す。図７は、図１ｂに示すレベルコントローラをさらに詳細に、概略的に示す。図８は、図７に示すレベルコントローラの効果を概略的に示す。図９は、実施形態の実施に適した電子デバイスの例を示す。

以下に、空間的に処理されたオーディオ信号と、特に追跡部からの入力に基づいてレンダリングされたオーディオ信号における、オーディオ信号の効果的な利得制御を実現するのに適した装置や、利用できうる機構についてより詳細に説明する。例えば、追跡部は聴き手の頭部の向きを監視する頭部追跡部であってもよい。以下の例では、オーディオ信号とオーディオキャプチャ信号が説明される。ただし、ある実施形態において、本装置は、オーディオ信号を取得する、またはオーディオ信号とその他の情報信号を受信するように構成された、任意の適切な電子デバイスまたは装置の一部であってもよいことが理解されよう。

上述したように、利得制御に対する従来の手法は、遅延線、利得（またはダイナミックレンジ）コントローラおよび乗算器により、音量制御を実現しうるものである。利得またはダイナミックレンジコントローラは、入力信号の振幅を決定し、この入力信号が遅延線を通過する際に、信号に適用される利得を計算し、その後その利得を乗算器により適用して、出力信号の振幅を調整してもよい。入力信号の振幅が所定の閾値を超えると、利得コントローラは、出力信号の振幅を制限して、所定の閾値未満に抑える。マルチバンド利得またはダイナミックレンジコントローラシステムの実現により、これを向上できうる。該システムは、それぞれ既定の周波数帯に対する利得を制御する複数のコントローラを用いて、閾値および利得を制御することにより、出力信号の全体的な音量を上げることができる。周波数に依存した制御により、１つの周波数帯域に入力電力が集中すると、出力信号の音量が上がりうる。ただし、これにより通常、フィルタリングまたは周波数分割工程が必要となり、これがシステムの処理遅延および計算負荷を増加させる。

以下に詳細に記載される概念は、例えば空間オーディオ再生システムの一部として実施されてもよい。このシステムは、外部（スピーカ、楽器、またはその他の音源）オーディオ信号と、空間（音響場）オーディオ信号の両方を取得するように構成されたキャプチャシステムの一部であってもよい。したがって、本明細書に記載の実施形態では、利得制御システムが空間オーディオ再生システムに統合されて、ヘッドルームの必要性を最小限に抑え、計算の複雑さと時間遅延とを最小限に抑えるようにする。

したがって、本明細書に記載の実施形態は、バイノーラル空間オーディオ再生方法を実現しうる。この方法は、任意の音響源の到来方向（Direction of Arrival：ＤＯＡ）と、直接要素（音響源等）と周囲要素（すなわち背景）の割合を推定し、この情報と聴き手の頭部追跡部入力の向きを利用して、バイノーラル出力信号を合成するものである。

したがって、統合された利得制御方法および装置は、音源と、（例えば頭部追跡装置からの）出力信号を聴いているユーザの、（推定された、または既知の）位置についての情報を利用して、レンダリングされたバイノーラル出力信号のレベルを推定する。このようにして、該方法および装置は、利得制御機能を、空間オーディオ処理およびレンダリングシステムに統合しうる。

これによりもたらされる効果は主に２つ考えられる。まず、空間オーディオ再生システムのレンダリング機能が利用でき、滑らかな利得変化や、周波数依存利得が、遅延や処理負荷の増加を伴わず適用できうる。さらに、理想的なヘッドルーム構成に「到達」できる。

分散型オーディオキャプチャシステムの一部として実現される、利得制御に適切な方法および装置を以下に説明する。以下の例は、ライブコンテンツのキャプチャおよび処理について説明される。ただし、ライブおよび記録コンテンツ（または記録コンテンツのみ）の処理に適切なさらなる例を採用できる。

以下にさらに詳細に説明する方法は、頭部追跡装置からの出力を利用して、オーディオ信号に対応付けられた利得／処理パラメータを変更することからなる。以下の例において、キャプチャ、ミキサ、出力システムはそれぞれ個別であるものと示されるが、単一の装置で実現されてもよいし、物理的に分離しているが、互いに通信可能な一連の装置で分散されてもよい。

さらに、以下の装置の少なくとも一部の要素は、いわゆる「クラウド」等の、分散型演算システム内で実現されうる。

図１ａに、いくつかの実施形態に係る利得制御の実現に適した、分散型オーディオキャプチャおよび処理システムの一例を示す。

以下の例では、３つの外部音源が示されるが、キャプチャ対象の音源の数を３つよりも少なくして、または多くして、以下の装置および方法を適用することもできる。例えば、システム９９は第１の音源マイク１１１を備える。第１の音源マイク１１１は、ラべリアマイクまたは「近接」音源キャプチャ装置のその他の例であってもよい。例えばある実施形態において、第１の音源マイクは、ブームマイクまたは同様の接近型マイクキャプチャシステムであってもよい。ある実施形態において、第１の音源マイク１１１はマイクアレイであってもよい。図１ａに示す第１の音源マイク１１１は、ボーカル等の第１の音響源に対応付けられたマイクであってもよい。

システム９９は、第２の音源マイク１１３をさらに備えてもよい。第２の音源マイク１１３は、楽器等の第２の音響源に対応付けられたマイクまたはマイクアレイであってもよい。例えば、第２の音源マイクは、エレキギターに内蔵された内部マイクシステム（ピックアップマイク）である。

システム９９は、第３の音源マイク１１５をさらに備えてもよい。第３の音源マイク１１５は、第３の音響源に対応付けられたマイクまたはマイクアレイであってもよい。例えば、第３の音源マイクは、ドラムに対応付けられたマイクである。

音源マイク１１１、１１３、１１５は、いずれも対応付けられた音源と共にダイナミックに動くもので、かつ、音源のダイナミックオーディオ出力を反映するものであってもよいことが理解されたい。

音源マイク１１１、１１３、１１５は、それぞれが取得したオーディオ信号を、プロセッサ兼レンダラ１００に出力するように構成されてもよい。例えば、第１の音源マイク１１１は、プロセッサ兼レンダラ１００の受信部（図示せず）へとオーディオ信号を無線送信する送信部（図示せず）を備えてもよい。

システム９９は、空間オーディオキャプチャ（Spatial Audio Capture：ＳＰＡＣ）デバイス１０５をさらに備えてもよい。空間オーディオキャプチャデバイス１０５は、「音響場」キャプチャ装置の一例であって、ある実施形態においては、本明細書に記載の音源により表される周囲音場面やその他の周囲音源に対応付けられたオーディオ信号を取得するように構成された指向性マイクアレイまたは全方向性マイクアレイであってもよい。空間オーディオキャプチャデバイス１０５は、取得したオーディオ信号を、プロセッサ兼レンダラ１００に出力するように構成されてもよい。

ある実施形態において、空間オーディオキャプチャデバイス１０５はモバイルデバイス内に実現される。この場合、空間オーディオキャプチャデバイスは、空間オーディオを取得するように構成されており、当該空間オーディオは、聴き手に届けられると、聴き手が実際に空間オーディオキャプチャデバイスの所在地に存在するかのように感じられる音場を体験可能とするものである。

空間オーディオキャプチャデバイス１０５は、位置決定部または位置追跡部（図１ａに図示せず）をさらに備えてもよい。位置決定部または位置追跡部は、空間オーディオキャプチャデバイス１０５に対する、音源マイク１１１、１１３、１１５（したがって、それらに対応付けられた音源）の位置を特定するのに適した出力を生成し、この情報をプロセッサ兼レンダラ１００に出力するように構成されてもよい。図１ａにおいて音源マイク１１１、１１３、１１５から延びるように示された点線が、位置追跡部または決定部から測位システム１５１への出力伝送を示すものであってもよい。以下の例においては、空間オーディオキャプチャデバイスは基準位置の一例とされるが、任意の物体位置を基準としてもよい。位置決定／追跡は任意の適切な手段または方法で実現されてもよい。

例えばある実施形態において、測位システムは衛星測位信号（またはその他のビーコン信号）を利用して、音源と空間オーディオキャプチャデバイス（ある実施形態においてはミキサ）の位置を推定してもよい。このように推定された位置は、位置決定部または位置追跡部に送信されてもよい。位置決定部または位置追跡部は、これらの位置を受信し、ある実施形態においては空間キャプチャデバイス（および／またはミキサまたはミキシングコントローラ）に対する音源の位置を決定するように構成される。

位置決定は、ローカル無線周波数信号推定により実行されてもよい。すなわち、例えば音源マイクは位置タグを備えてもよい。この位置タグは、無線周波数信号を生成および送信するように構成されてもよい。当該信号は、適切な受信部により受信可能であって、受信部または位置決定部に、受信部に対する音源マイクの位置または場所を特定するのに適切な情報を決定可能とするものでありうる。したがって、空間オーディオキャプチャデバイス１０５は、位置タグ受信部をさらに備えてもよい。この位置タグ受信部は、音源に対応付けられた位置タグからの無線周波数信号を受信するように構成される。空間オーディオキャプチャデバイス１０５は、空間オーディオキャプチャデバイスに対するタグの推定位置を決定するように構成された位置決定部をさらに備えてもよい。人に装着される／楽器に設けられたマイクは、音響空間内を自由に移動できるので、位置決定部は、マイク位置の連続検知に対応可能である必要がある。

ある実施形態において、受信部および／または位置追跡部または決定部は、空間オーディオキャプチャデバイス１０５外に設けられてもよい。そのような実施形態では、空間オーディオキャプチャデバイス自体が、位置タグを備える（または位置タグに対応付けられている）。この位置タグは、受信部および／または位置決定部が、位置決定部に対する空間オーディオキャプチャデバイスの位置を推定可能とする無線周波数信号を生成する。それに応じて、位置決定部は音源（または音源に対応付けられた位置タグ）と、空間オーディオキャプチャデバイス（およびデバイスに対応付けられた位置タグ）の（１つまたは複数の）相対位置を決定してもよい。

ある実施形態において、高精度屋内測位（High Accuracy Indoor Positioning：ＨＡＩＰ）システム、またはその他の適切な屋内測位技術を利用して、位置タグおよび位置決定部が実現される。したがって、位置タグはＨＡＩＰタグであって、位置受信部および／または位置追跡部は、タグの位置を追跡するように構成されたＨＡＩＰ探知部である。

ある実施形態において、無線周波数に基づく位置推定に加えて、位置決定部および／または位置追跡部はビデオコンテンツ分析および／または音源位置特定を利用してもよい。

すなわち、ある実施形態において、空間オーディオキャプチャデバイスの位置または配置箇所が決定される。空間オーディオキャプチャデバイスの配置箇所は、（０時点において）以下のように表される。

ある実施形態において、第１の音源（ｓ１）マイクが、ＨＡＩＰ探知部から特定の距離範囲で、ＳＰＡＣアレイの前方に配置される、較正工程または動作が実現されてもよい（言い換えると、０時点を定義する）。この第１の音源マイクの位置は、以下のように表される。

さらに、ある実施形態において、この較正工程は、ＨＡＩＰ座標系における空間オーディオキャプチャデバイスの「前方向」を決定できる。これは、まず次のベクトルからアレイ前方向を定義することで実行されうる。

このベクトルにより、位置追跡部はアレイに対する方位角α_Ｓ１および距離ｄ_Ｓ１を決定可能としてもよい。

例えば、時点ｔでの第１の音源マイク位置を次のようにする。

アレイに対する方向は次のベクトルで定義される。

ここから方位αは以下のように決定される。

式中、ａｔａｎ２（ｙ，ｘ）は、正のｘ軸と点（ｘ，ｙ）との間の角度が得られる「四象限逆正接」である。したがって、第１の項により、正のｘ軸（ｘ_Ｓ（０）およびｙ_Ｓ（０）を原点とする）と、点（ｘ_Ｓ１（ｔ），ｙ_Ｓ１（ｔ））との間の角度が求められ、第２の項により、ｘ軸と、初期位置（ｘ_Ｓ１（０），ｙ_Ｓ１（０））との間の角度が求められる。方位角は第１の角度を第２の角度から引くことで得られてもよい。

距離ｄは次のように求められる。

ある実施形態において、ＨＡＩＰ位置データは多分にノイズを含みうるので、数秒（例えば３０秒）の期間にわたって、オーディオキャプチャデバイスと第１の音源とのＨＡＩＰタグの位置を記録し、記録された位置の平均として位置（ｘ_Ｓ１（０），ｙ_Ｓ１（０）および（ｘ_Ｓ（０），ｙ_Ｓ（０）））を求め、上述の式の入力を得るようにしてもよい。

ある実施形態において、較正工程はＳＰＡＣデバイス（例えばモバイルデバイス）により開始されてもよい。この場合、ユーザ（複数可）が、３０秒間にアレイの前方から動かないように音声またはその指示を送り、当該期間の終了時に音で知らせるように構成される。

上述の例では、二次元における位置情報が位置決定部および／または位置追跡部により生成されているが、この情報は三次元情報にまで拡大されてもよいことが理解されよう。その場合、位置決定部および／または位置追跡部は、方位角および距離に加えて、仰角も決定しうる。

ある実施形態において、その他の位置決定／追跡手段を利用して、移動する音源の位置特定および追跡を実行してもよい。その他の追跡手段の例としては、慣性センサ、レーダー、超音波センシング、ＬＩＤＡＲまたはレーザー測距計、視覚的分析、オーディオ分析等が挙げられる。

例えば視覚的分析により、人や楽器のようなあらかじめ決められた音源の位置特定および追跡を実行してもよい。視覚的分析は、空間オーディオと共に撮影されたパノラマ映像に対して適用されてもよい。すなわち、この分析では、音源マイクを持つ人を視覚的に位置特定することに基づいて、人の位置を特定および追跡するものであってもよい。視覚的追跡の利点として、音源が音を発しておらず、音響に基づいた追跡が困難であるような状況でも利用可能である。視覚的追跡は、各パノラマ映像フレームについて、適切なデータ群（歩行者を含む画像のデータ群等）で訓練した検出器を実行または動作することに基づいてもよい。別の実施形態において、動画フレーム間の、正しい人の軌跡を得るために、カルマンフィルタリングまたは粒子フィルタリング等の追跡技術を利用してもよい。ここで、空間オーディオキャプチャデバイスの前方向に一致する、パノラマ映像の前方向に対する人の位置を、該当する音源の到来方向として利用できる。ある実施形態において、音源マイクの外観に基づく視覚的マーカまたは検出器を利用して、視覚的追跡方法の精度向上に寄与してもよい。

ある実施形態において、視覚的分析は、音源（すなわち、パノラマ映像フレーム内の座標）の二次元位置についての情報のみを提供するものではなく、検出音源のサイズに比例する、距離についての情報も提供できる。ただし、後者は音源クラスの「標準的な」サイズがわかっていることが前提となる。例えば、「あらゆる」人の距離は、平均身長に基づいて推定できる。あるいは、システムにおいて特定の音源のサイズがわかっていれば、より正確な距離の推定も可能である。例えば、追跡が必要な各人の身長をシステムに伝えるまたはそれで訓練するようにしてもよい。

ある実施形態において、奥行き検知装置を使用することで、三次元または距離情報を実現してもよい。例えば、「Ｋｉｎｅｃｔ」システム、飛行時間型カメラ、ステレオカメラまたはカメラアレイを利用して、分析対象の画像を生成してもよく、多数の画像からの画像差分から、奥行きまたは三次元視覚的シーンが生成されてもよい。これら画像はカメラにより生成されてもよい。

ある実施形態において、音響源位置決定および追跡を使用して音源を追跡しうる。例えば、到達時間差（Time Difference of Arrival：ＴＤＯＡ）法により、この音源の方向を推定しうる。音源位置決定は、ある実施形態において、ステアドビームフォーマを粒子フィルタ型追跡アルゴリズムと共に使用し実現してもよい。

ある実施形態において、音源の追跡に、音響自己位置特定を利用してもよい。

無線技術と、接続性に対するソリューションにおいて、さらにデバイス間の高精度同期に対応可能な技術が存在する。これは、音響相関解析における時間のずれの不確定性を取り除くことで、距離測定を簡潔化できるものである。これらの技術は、マルチチャネル音響再生システムの、将来的なＷｉＦｉ規格化のために提案されている。

ある実施形態において、屋内測位、視覚的分析、音響源位置特定のそれぞれによる位置推定を共に利用してもよい。例えば、各決定部または推定部からの推定を平均化して、位置決定および追跡精度を向上してもよい。さらに、視覚的分析の計算負荷（通常、オーディオ信号またはＨＡＩＰ信号の分析よりもかなり「重い」）を最小限に抑えるように、パノラマフレーム全体の、音源が存在すると音響および／またはＨＡＩＰ分析サブシステムが予測した空間的位置に対応する一部のみに視覚的分析を実施してもよい。

ある実施形態において、位置推定は、多数の音源からの情報を組み合わせてもよい。多数の推定を組み合わせることにより、提供されたシステムに対して、正確な位置情報を提供する可能性がある。ただし、システムは低い解像度であっても、位置推定を実現する位置検出技術のサブセットを利用するように構成されうることが有利である。

システム９９は、音源マイク１１１、１１３、１１５および空間オーディオキャプチャデバイス１０５の出力を受信するように構成されたプロセッサ兼レンダラ１００をさらに備えてもよい。さらに、ある実施形態において、プロセッサ兼レンダラ１００は、位置追跡部から音源位置（および追跡情報）を受信するように構成されてもよい。

プロセッサ兼レンダラ１００は、音源マイク１１１、１１３、１１５および空間オーディオキャプチャデバイス１０５からの出力を処理（例えばミキシング）して、このように処理された信号をヘッドホン１２１に出力するように構成されてもよい。本明細書で示すプロセッサ兼レンダラ１００は、入力コントローラ１０３および頭部追跡部（または追跡部）１０１からの入力を受信し、この入力に基づいて音響源／空間オーディオキャプチャデバイス（または装置）からのオーディオ信号を処理するように構成されてもよい。これについては詳細に後述する。

システム９９は、入力コントローラ１０３をさらに備えてもよい。入力コントローラ１０３は、プロセッサ兼レンダラ１００の音響出力を（例えばヘッドホン１２１を介して）聴いているユーザに、出力の処理を制御することを可能としてもよい。したがってある実施形態において、入力コントローラ１０３は、適切な選択を実現し、プロセッサ兼レンダラ１００への出力を制御することで、音響源と、プロセッサ兼レンダラ１００が生成した空間オーディオキャプチャデバイスオーディオ信号の処理（例えばミキシング）を制御してもよい。入力コントローラ１０３は、物理的コントローラ要素を備えてもよい。例えば、スライダ、ダイヤル、ボタンでもよいし、あるいはタッチスクリーンにおいて物理的コントローラ要素を仮想的に表したものであってもよい。ある実施形態において物理的コントローラ要素は、動的に再設定可能である。すなわち、同一のコントローラ要素で、第１の期間においては第１のパラメータまたは機能が制御され、第２の期間においては第２のパラメータまたは機能が制御されてもよい。

システム９９は、頭部追跡部（音源追跡部または単純に追跡部とも呼ばれるものである）１０１をさらに備えてもよい。これは、出力を聴くユーザの頭部の向きを追跡する任意の適切な慣性センサであってもよい。言い換えると、頭部追跡部１０１は、方位および／または仰角を測定するための任意の適切な手段であってもよい。例えば、頭部追跡部はヘッドホン１２１に取り付けられ、出力を聴いているユーザの、定義されたまたは基準向き（マイクアレイ「前」方向）に対する向きおよび／または方位を監視し、プロセッサ兼レンダラ１００に出力可能な値または入力を提供するように構成されたセンサであってもよい。頭部追跡部１０１は、ある実施形態において、少なくとも１つのジャイロスコープおよび／またはデジタルコンパスにより実現されてもよい。動作を簡単にするため、頭部追跡部および空間オーディオキャプチャデバイスマイクアレイは、磁気コンパスを備えて、専用の手動較正ステップを必要なくしてもよい。磁気コンパスがない場合、頭部追跡部を装着したユーザは、オーディオキャプチャシステムの基準軸と同一の方向を向くことで、システムの較正が行われる。

図１ａに示すように、システム９９は、一対のヘッドホン１２１をさらに備える。これは聴き手の頭部に装着可能で、適切なバンドを介して接続された一対のトランスデューサを備える。バンドに頭部追跡部１０１が装着される。ある実施形態において、ヘッドホン１２１は、電気信号をユーザへの音響出力に変換するのに適したイヤピース、イヤホン等であってもよい。

図１ｂは、プロセッサ兼レンダラ１００の例をさらに詳細に示す。プロセッサ兼レンダラ１００は、オーディオ信号／ストリームを受信するように構成される。例えば、プロセッサ兼レンダラ１００は、（空間オーディオキャプチャデバイス１０５内の）マイクアレイ１４１、あるいは第１の音源マイク１１１、第２の音源マイク１１３、または第３の音源マイク１１５からオーディオ信号を受信するように構成されてもよい。したがって入力は、マイクアレイの２以上のマイク信号、あるいは既知の方向に配置されたラべリアマイクまたは楽器用マイクからの１以上の音響物体信号を含んでもよい（特定の実施形態では、オーディオ信号／ストリームとして、対応付けられた位置値を有するその他の任意のオーディオ信号が使用されてもよい）。ある実施形態において、入力は「記録された」または記憶されたオーディオ信号であってもよい。例えば入力は、マルチチャネルラウドスピーカ信号、すなわちラウドスピーカチャネル構成に配置されたオーディオ信号を含んでもよい。ある実施形態において、音響入力は、サンプリングされたオーディオ信号と、聴き手に対する、音響源または物体の方向または位置を表すメタデータを含んでもよい。ある実施形態において、音響入力信号は、利得値等のその他の任意のパラメータ、またはオーディオ信号にかけられる等化フィルタを含んでもよい。

ある実施形態において、プロセッサ兼レンダラ１００はアナライザ１３１を有する。アナライザ１３１は、音響源に対応付けられた向きまたは位置を決定するために、音響入力を分析するように構成される。アナライザ１３１は任意の適切な方向または位置解析を実行してもよい。例えばある実施形態において、アナライザ１３１は、空間オーディオキャプチャデバイス１０５からの、測位システム１５１の出力を受信し、この情報から音源の向きまたは位置を決定するように構成される。

ある実施形態において、アナライザ１３１は、空間オーディオキャプチャデバイス１０５からオーディオ信号を受信し、それを分析して音景内の音響源または物体に対応付けられた方向または位置情報を決定するように構成されてもよい。同様に、上述のように音源マイクはマイクアレイを含みうるため、その場合、アナライザは音源マイクからのオーディオ信号を分析し、音景内の音響源／物体を決定する。

アナライザ１３１は、音源の到来方向（ＤＯＡ）を決定するように構成されてもよい。さらに、アナライザ１３１は、直接成分と周囲成分の割合、またはその他の音景を表現および定義するのに寄与するその他のパラメータを決定するように構成されてもよい。

図２は、例えば単一の音源２０１、およびＭ個のマイクを含むマイクアレイ２００（例えば空間オーディオキャプチャデバイス１０５のマイクアレイ１４１でありうる）が存在する例を示す。マイクアレイ２００は、マイク信号ｘ（ｍ，ｎ'）を提供するように構成されうる。ここでｍとｎ'はそれぞれマイクと時間のインデックスである。音源２０１は、球面座標系において、方位角Φ（ｋ，ｎ）と、仰角θ（ｋ，ｎ）とを有するように示されている。なお、ｋ、ｍ、ｎはそれぞれ、周波数、マイク、時間のインデックスである。

アナライザ１３１は、短時間フーリエ変換により、入力信号を周波数領域に変換してもよい。
Ｘ（ｋ，ｍ，ｎ）＝Ｆ（ｘ（ｍ，ｎ'））
式中、Ｘは変換された信号を示す。

音源の到来方向を決定するための方法が数多く知られている。ここでは、方向情報を決定するための１つの方法が説明される。有用性が確認された方法である。この方法はあくまで例示であって、別の方法を利用してもよい。この方法は、音響入力信号チャネル間の相関に基づく。この方法では、到来音の方向は、Ｂ周波数領域サブ帯域について個別に推定される。全サブ帯域について、最も突出して知覚される音源の方向を確認するという概念である。最も突出して知覚される音源の方向を全サブ帯域について決定すると、複数の音源がどこにあるか、複数の音源がそれぞれ異なるサブ帯域において突出している場合には、それらに対応付けられた方向を決定できる。

上述のように、各入力信号ｍはフーリエ変換により周波数領域に変換されるが、フーリエ変換は離散フーリエ変換（Discrete Fourier Transform：ＤＦＴ）またはその他の適切に実施される変換であってもよい。例示的実施形態において、変換窓かけには、重複５０％、有効長２０ミリ秒（ｍｓ）の正弦波窓を利用する。ある実施形態において、フーリエ変換実施前に、窓の終端にＤ_ｔｏｔ＝Ｄ_ｍａｘ＋Ｄ_ＨＲＴＦゼロが加えられる。Ｄ_ｍａｘは、マイク間のサンプルの最大遅延に対応する。最大遅延は以下のとおりに求められる。

式中、Ｆ_ｓは信号のサンプリングレートであって、

は空気中の音の速度である。Ｄ_ＨＲＴＦの値は、シンセサイザ兼ＨＲＴＦレンダラ１３５内で実施されうる任意の頭部伝達関数（Head Related Transfer Function：ＨＲＴＦ）処理により信号に生じた最大遅延である。

ＤＦＴ変換後、全マイクｍに対する周波数領域表現Ｘ（ｋ，ｍ，ｎ）はｋ＝０，…，Ｎ－１となる。Ｎは、正弦波窓（長さＮ_ｓ）と、追加された

ゼロを考慮した窓の全長である。

周波数領域表現は、Ｂ個のサブ帯域に分割される。

式中、

は第ｂサブ帯域の第１インデックスである。サブ帯域の幅は、例えば等価矩形帯域幅（Equivalent Rectangular Bandwidth：ＥＲＢ）という尺度に基づいてもよい。

全てのサブ帯域について、以下のように方向解析が実行される。
１．サブ帯域が選択される。
２．当該サブ帯域内の信号に対して方向解析が実行される。方向解析は、（例えば突出した）音源の方向α_ｂを決定するものである。
３．全てのサブ帯域が選択されたか判定する。まだ全て選択済みではなければ、新たなサブ帯域を選択してステップ２を繰り返す。選択されていれば、決定されたサブ帯域方向を処理して、突出した音源（およびその他の音源）の方向を決定する。

上記ステップ２は、以下のサブステップまたは動作にさらに分割されてもよい。

最初に、２つのマイク信号（この例ではマイク２および３）により、方向が推定される。２つの入力マイクオーディオ信号について、これらチャネルの周波数領域信号間の時間差が除去される。目的は、サブ帯域ｂについての２つのチャネル間の相関が最大となる遅延τ_ｂを見つけることである。

例えば

の周波数領域表現は、以下を使用してτ_b時間領域サンプルずらすことができる。

最適遅延が以下のとおりに求められる。

式中、Ｒｅは、結果の実数部で、＊は複素共役である。

および

は、

サンプルの長さを持つベクトルと考えられる。１サンプルの解像度は、概して上述の遅延を見つけるのに適したものである。また、相関とは異なる、その他の同様の知覚に基づく測定も利用可能である。遅延情報により、以下の論理から和信号が生成される。

式中、τ_ｂは前述のように定義された理想的な遅延である。

この和信号によると、イベントが生じるマイクのコンテンツ（すなわち、周波数領域信号）がまずそのまま加えられ、その後イベントが生じるマイクのコンテンツ（すなわち周波数領域信号）はシフトされて、最高の組合せが得られる。

したがって、音源は、例えばアレイの第２のマイクのようなマイクで受信される例示的時間領域関数で示されるイベントを生成するものと考えられる。同じイベントが第３のマイクで受信される。理想的な状況としては、アレイの第２のマイクで受信される例示的時間領域関数が、単純に第３のマイクで受信される関数を時間シフトしたものとなる。この状況が理想的である理由は、現実では２つのマイクが、例えば、それらによるイベントの記録が、強め合うまたは弱め合う干渉や、イベントからの音を遮蔽または増幅する要素により影響されるような、異なる様々な環境に置かれることが多いためである。

シフト値τ_ｂは、音源が第３のマイクよりも第２のマイクにどれ程近いかを示す（τ_ｂが正であれば、音源は第３のマイクよりも第２のマイクに近い）。実際の距離の差は以下のように計算される。

基本的な幾何学を利用して、到来音の角度が以下に等しいと判定できる。

式中、ｄはマイク間の距離であり、ｂは音源と最近傍のマイクとの推定距離である。典型的には、ｂは固定値に設定できる。例えばｂ＝２メートルとすることで、安定した結果が得られることが確認されている。

なお、２つのマイクだけでは正確な方向が判定できず、音の到来方向については２つの可能性が存在する。

そこで、例えば３つのマイクのアレイにおける第１のマイクのようなさらなるマイクを利用して、いずれの符号（＋または－）が正しいかを定義できる。
第１のマイクと、２つの推定された音源との距離は以下のとおりに定義できる。

式中、ｈは、第１、第２、および第３のマイクの例示的配置（マイクが三角形の頂点にそれぞれ配置される）で定義される二等辺三角形の高さを表す。この例では、ｈは以下のとおりに定義される。

距離は、サンプル内の遅延に等しい。

これら２つの遅延の内、和信号とのよりよい相関を実現する一方が選択される。相関は以下のように求められる。

この上で、サブ帯域ｂについて顕著な音源に対する方向が以下のように求められる。

同じ推定が、各サブ帯域に対して繰り返される。

この方法は、「水平」および「垂直」に変位があるようなマイクアレイにも適用できる。これによって、方位と仰角とが決定できる。

したがって、音源の方向は、ｂをサブ帯域（すなわち、ｋ個のインデックス群）として、球面座標系内の方位Φ（ｂ，ｎ）と、仰角θ（ｂ，ｎ）により表される。したがって、アナライザ１３１は入力を処理して、方向情報と、音場を表す別のメタデータまたはパラメータを提供できる。この位置メタデータは、シンセサイザ／レンダラ１３５およびレベルコントローラ１３３に送ってもよい。

さらに、図１ｂに示すように、プロセッサ兼レンダラ１００はシンセサイザ／レンダラ１３５を備えてもよい。シンセサイザ／レンダラ１３５は、アナライザ１３１からの方向メタデータおよび入力信号Ｘ（ｋ，ｎ，ｍ）と、レベルコントローラ１３３からの利得またはレベル制御と、頭部追跡部の向きを利用して、バイノーラル出力オーディオ信号を合成するように構成されてもよい。

シンセサイザ／レンダラ１３５は、入力オーディオ信号に対して頭部伝達関数（ＨＲＴＦ）を適用することで、左および右チャネル出力オーディオ信号を生成するまたは合成するように構成されてもよい。ＨＲＴＦは、人の耳、頭部、胴等が、特定の方向からの音にどのように影響するかを表すものである。したがって、単純に複数の音響源のＤＯＡと、複数の頭部追跡部の向きに応じて、異なる複数のＨＲＴＦが適用される。

図３に、頭部追跡部第１の（すなわち基準）向きに対する音源の向きの一例を示す。この例では、マイクアレイ２００の基準向き３００に対して、音源２０１は固定の仰角（θ＝０）と、方位角φ２０３に配置されているように示されている。したがって、頭部追跡部が、マイクアレイと同じ「基準」向きまたは方向に向けられると、例示的音源２０１は聴き手の左側に位置することになる。

そのような例では、シンセサイザ１３５は、第１の「左チャネル」ＨＲＴＦを入力オーディオ信号に適用して、左チャネルバイノーラル出力オーディオ信号を生成し、さらに第２の「右チャネル」ＨＲＴＦを入力オーディオ信号に適用して、右チャネルバイノーラル出力オーディオ信号を出力するように構成される。

なお、上述の例では、聴き手の頭部が、音響源から右耳への直接経路を遮り、対応するＨＲＴＦの振幅反応は、ローパスフィルタ形状となることが理解されよう。一方で、音響源から左耳オーディオ出力への経路は頭部により遮られることはないので、対応するＨＲＴＦの振幅反応は上述のようなローパス的特性を帯びず、高周波数の割合が高まる。シンセサイザ／レンダラ１３５は、聴き手が頭部追跡部を利用する際に、その頭部の動きに合わせてレンダリングされた音景も動くようにさらに構成される。

例えば、図４は、第１の、すなわち基準向きに対して、第２の、すなわち回転向きに頭部追跡部が配置された例を示す。すなわち、例えば頭部追跡部の向き４００が、マイクアレイ基準向き３００に対して向き角度φ_ｈｅａｄ４０１となっている。聴き手に対する音源２０１の向き（向き４００により定義される）は、φ－φ_ｈｅａｄ４０３と定義されうる。この例では、シンセサイザ１３５はここで、元の方位角φではなく、新たな方位角φ－φ_ｈｅａｄの音源入力向きに基づくＨＲＴＦを利用して、オーディオ信号をレンダリングする。頭部追跡部の可変の向きに基づく可変ＨＲＴＦの提供の効果として、周波数応答に応じて左および右チャネル出力オーディオ信号を変化させるだけではなく、出力レベルを変化させることが挙げられる。

図５に、方位角変化に応じた出力レベルの変化を示す。図５では、音源および頭部追跡部の向きφ－φ_ｈｅａｄの変化のための、左チャネルオーディオ出力の出力レベル分布の例を示す。角度φ₀＝φ－φ_ｈｅａｄは、任意の固定角度である。最大出力レベルは、φ_Ｍａｘ５０２で聴こえうる。φ_０５０３では数デシベル低くなる。図８に示す理想的曲線を、所望の最大出力レベルを超えないように選択できる。

本明細書に記載のように、より高い周波数帯で、出力レベルがより激しく変化する。例えば図６は、例示的なオーディオ信号に対する、頭部追跡部の向きの差φ－φ_ｈｅａｄ＝π／２６０１およびφ－φ_ｈｅａｄ＝－π／２６０３に基づく出力レベル周波数分布の例を概略的に示す。本例に示すように、左耳が例示的音源φ－φ_ｈｅａｄ＝π／２６０１に対する到来方向に「向いている」場合、出力オーディオ信号の周波数応答は、スペクトルの広範囲で高くなる。左耳が例示的音源φ－φ_ｈｅａｄ＝－π/２６０３に対する到来方向に「向いていない」場合、頭部の遮蔽効果により、スペクトルの出力レベルが低減する。この低減は高い周波数（例えば＞３，５００Ｈｚ）で顕著である。

この出力レベルの変化は、利得制御およびダイナミックレンジ制御動作において考慮すべきものである。

図７は、図１ｂに示すレベルコントローラ１３３をより詳細に示すものである。図１ｂに示すレベルコントローラは、アナライザ１３から入力オーディオ信号Ｘ（ｋ，ｎ，ｍ）と、この入力オーディオ信号に対応付けられたその他のメタデータ（音源方向Φ（ｋ，ｎ）等）を受信するように構成される。さらに、レベルコントローラ１３３は、頭部追跡部Φ_ＨＥＡＤ（ｋ，ｎ）から頭部の向き値７０１を受信するように構成されうる。

レベルコントローラ１３３は、入力オーディオ信号と、音源の方向と、頭部追跡部の向き値に基づいて、利得値Ｇ（ｋ，ｎ）を生成し、その利得値Ｇ（ｋ，ｎ）７６１をシンセサイザ／レンダラ１３５に出力するように構成される。

シンセサイザ／レンダラ１３５は、これらの利得値を受信し、入力オーディオ信号Ｘ（ｋ，ｎ，ｍ）または出力オーディオ信号のそれぞれの一方に適用するように構成されてもよい。

ある実施形態において、レベルコントローラ１３３は、Ｍ個のマイク入力ｍ＝［１，Ｍ］に対する入力レベル予測Ｘ'（ｋ，ｎ）＝ｍａｘ（ａｂｓ（Ｘ（ｋ，ｍ，ｎ）））と、φ－φ_ｈｅａｄにより定義された方位角に基づく、入力レベルと出力レベルとの所望の関係を実現する出力利得を計算するように構成される。ある実施形態において、利得関係は、一連の関数（または曲線）として表されてもよく、これを角度φ（ｋ）－φ_ｈｅａｄ（ｋ）において所望の最大出力レベルを超えないように選択される。ある実施形態において、関数または曲線は、図５に示すような出力レベル推定に基づいて生成されてもよい。入力レベルおよび出力レベルの関係は、異なる様々な方位角φ－φ_ｈｅａｄと、周波数帯ｋについて測定され、所望の関係を実現する利得が決定される。一例示的実施形態では、レベル制御アルゴリズムがテーブルルックアップ機能により、所望の入力レベルおよび出力レベル関係を実現する曲線を選択する。

オーバーフローを防ぐため、利得曲線は、例えば一定の利得を低い入力レベルで実現し、より高い入力レベルではより低い利得が実現されるように、２つ以上のセクションからなるものであってもよい。ヘッドルームを最小限に抑えるため、最大予測入力レベルで使用される利得ｇ_ＭＩＮ（ｋ，φ）を決定する必要がある。システム閾値Ｙ_{ＴＨＭＡＸ}（ｋ）が左および右出力の最大レベルを定義し、符号Ｙ_ＭＡＸ（ｋ，φ）が最大予測入力レベルでの出力レベルを示すものとして、利得は、ｇ_ＭＩＮ（ｋ，φ）＝Ｙ_{ＴＨＭＡＸ}（ｋ）／Ｙ_ＭＡＸ（ｋ，φ）となる。例えば一定利得値のようなその他の利得曲線パラメータは、使用されるシステムに依存するものであって、多くの場合主観的に判断される。線形性を仮定することで、出力レベルＹ_ＥＳＴ（ｋ，φ，ｎ）＝Ｃ＊Ｘ'（ｋ，ｎ）＊Ｔｈ（ｋ，φ（ｎ））に対する推定を導ける。項Ｔｈ（ｋ，φ（ｎ））により、出力レベル推定に方位角への依存性が加わる。ここでＣはスカラー定数である。測定データは、ＣおよびＴｈ値の決定に利用できる。

例えば図８は、単一の周波数帯と、一対の方位角に対する、利得関数曲線を示す、一連の関数の例を示す。したがって、例えば既定の入力レベルまでは、利得関数８００は一定であり、方位角に依存しない。既定の入力レベルを超えると、最大出力レベル利得関数８０３が、基準出力レベル利得関数８０１よりも低くなるように、利得関数が方位角に応じて変化する。このように位置と周波数に依存した曲線を利用することで、レベルコントローラは必要なヘッドルームを最小限に抑えられる。

ある実施形態において、既知の方向に近接場マイクを設け、レベルコントローラ１３３はＭ個のマイク入力ｍ＝［１，Ｍ］に対して推定出力レベルＹ_ＥＳＴ（ｋ，ｎ）＝ｓｑｒｔ（ｓｕｍ（ａｂｓ（Ｘ（ｋ，ｍ，ｎ））^２＊Ｔｈ（ｋ，φ（ｍ，ｎ）－φｈｅａｄ（ｎ））^２））を計算するように構成されてもよい。

項Ｔｈ（ｋ，φ（ｍ，ｎ）－φ_ｈｅａｄ（ｎ））は、各近接場マイクｍに対する入力レベルおよび出力レベル関係の方位角依存性を補償するものである。

したがって、レベル制御アルゴリズムは、各周波数帯ｋに対する推定出力レベルＹ_ＥＳＴに基づく所望の出力レベルを定義する固定曲線を利用してもよい。

上述のように、シンセサイザ／レンダラ１３５は、利得入力Ｇ（ｋ，ｎ）を受信し、乗算器を利用して利得を信号経路に適用するように構成されうる。ある実施形態において、利得はアナライザ１３１と、シンセサイザ／レンダラ１３５との間の乗算器ブロックにより適用される。

上述したような実施形態では、システムは、自身に対する遅延や計算負荷を最低限に抑えうる。これは、レベル制御関数の適用に個別のバッファリング、周波数領域変換、またはフィルタバンクが必要ないためである。

さらに、ある実施形態において、プロセッサ兼レンダラ１００はリミッタ１３７を備えてもよい。リミッタ１３７は、シンセサイザ／レンダラ１３５からの出力を受信して、所望の振幅範囲内にパルス符号変調（Pulse Code Modulated：ＰＣＭ）信号が収まることを保証し、それにより、若干小さくなったヘッドルームを利用可能とする。システム遅延増大を防ぐため、リミッタ１３７はシンセサイザ／レンダラ１３５の出力バッファリングを利用できる。

ある実施形態において、本明細書に記載のレベルコントローラを変形して、個別直列レベルコントローラを特定の入力（例えばパーカッション楽器またはベースギター）に実現可能となってもよい。ある実施形態において、ドラム等の近接マイク入力は、出力信号にミキシングされる前に、個別レベル制御関数を有していてもよい。

ある実施形態において、位置追跡部から受信したユーザの頭部の向き／位置は、質量および慣性でモデル化可能な連続した関数として扱うことができる。したがって、現在の頭部位置／向きから、並進および／または回転速度により未来の頭部位置／向きを予測することができる。ある実施形態において、レベルコントローラは利得推定を、現在の頭部位置だけでなく、予測頭部位置についても判定可能に構成されてもよい。例えば聴き手が耳を音源に向けていれば、レベル制御によってより滑らかな制御曲線が実現できうる。

上述のように従来技術の利得制御方法では、頭部追跡バイノーラルレンダリングでは極めて望ましくない余分な遅延が発生するが、詳述した上記実施形態では、利得制御を空間－音処理に組み込むことで、これを防止できる。

従来技術の利得制御方法では、独立した処理ブロックを要するため、計算が過度に複雑化してしまう。本明細書に提示の実施形態は、レベル（利得）制御を空間－音レンダリングに組み込むことで、これを防止できうる。したがって、余分な処理を最小限に抑えながら、レベル（利得）制御が実行できる。

従来技術の利得制御方法では、頭部追跡情報もＤＯＡ情報も考慮されない。したがって、クリッピングの防止のために、余分なヘッドルームまたは余分の遅延が必要となる。本明細書に提示の発明は、上述の情報を利用するので、余分なヘッドルームも余分の遅延も不要となる。

シンセサイザ／レンダラの後段に追加のリミッタを使用することで、本明細書に記載の実施形態は、従来技術の手段よりも優れた出力オーディオ品質を実現することが期待される。通常、ソフトリミット機能が必要となることはあまりないためである。

図９に、プロセッサ兼レンダラ１００の少なくとも一部、またはシステム９９の一部として利用可能な電子デバイスの例を示す。このデバイスは、任意の適切なデバイスまたは装置であってもよい。例えばある実施形態において、デバイス１２００は仮想または拡張現実キャプチャデバイス、モバイルデバイス、ユーザ機器、タブレットコンピュータ、コンピュータ、オーディオ再生装置等である。

デバイス１２００は、マイクアレイ１２０１を備えてもよい。マイクアレイ１２０１は、複数（例えばＭ個）のマイクを備えてもよい。ただし、マイクは任意の適切な構成であってもよいし、任意の適切な数のマイクを利用してもよい。ある実施形態において、マイクアレイ１２０１は装置から分離しており、オーディオ信号は有線または無線接続を介して装置に送られる。マイクアレイ１２０１は、ある実施形態において、図１ａに示すようなＳＰＡＣマイクアレイ１４４であってもよい。

マイクは、音波を適切な電気的オーディオ信号に変換するように構成されたトランスデューサであってもよい。ある実施形態において、マイクはソリッドステートマイクであってもよい。言い換えると、マイクはオーディオ信号を取得して、適切なデジタル形式の信号を出力可能であってもよい。別の実施形態において、マイクまたはマイクアレイ１２０１は任意の適切なマイクまたはオーディオキャプチャ手段を含み入る。例としては、コンデンサマイク、キャパシタマイク、静電マイク、エレクトレットコンデンサマイク、ダイナミックマイク、リボンマイク、カーボンマイク、圧電マイク、または微小電気機械システム（Microelectrical-Mechanical System：ＭＥＭＳ）マイクが挙げられる。このマイクはある実施形態において、オーディオキャプチャされた信号をＡ／Ｄコンバータ（ＡＤＣ）１２０３に出力可能である。

デバイス１２００は、Ａ／Ｄコンバータ１２０３をさらに備えてもよい。Ａ／Ｄコンバータ１２０３は、マイクアレイ１２０１における各マイクからのオーディオ信号を受信し、それを処理に適した形式に変換するようにさらに構成されてもよい。ある実施形態において、マイクが一体型マイクであれば、Ａ／Ｄコンバータは不要である。Ａ／Ｄコンバータ１２０３は、任意の適切なＡ／Ｄ変換または処理手段であってもよい。Ａ／Ｄコンバータ１２０３は、オーディオ信号のデジタル表現を、プロセッサ１２０７またはメモリ１２１１に出力するように構成されてもよい。

ある実施形態において、デバイス１２００は、少なくとも１つのプロセッサまたはＣＰＵ１２０７を備える。プロセッサ１２０７は様々なプログラムコードを実行するように構成できる。実行されるプログラムコードは、例えば本明細書に記載のＳＰＡＣ制御、レベル制御、分析、合成／レンダリングを含んでもよい。

ある実施形態において、デバイス１２００はメモリ１２１１を備える。ある実施形態において、少なくとも１つのプロセッサ１２０７がメモリ１２１１に接続される。メモリ１２１１は、任意の適切な記憶手段であってもよい。ある実施形態において、メモリ１２１１は、プロセッサ１２０７で実行可能なプログラムコードを記憶するためのプログラムコード部を備える。さらに、ある実施形態において、メモリ１２１１は、データ（例えば、本明細書に記載の実施形態のとおりに処理されたまたは処理されるデータ）を記憶するための記憶データ部をさらに備えてもよい。プログラムコード部内に記憶された、実行されたプログラムコードと、記憶データ部内に記憶されたデータとは、必要に応じてプロセッサ１２０７がメモリ－プロセッサ接続を介して取得できる。

ある実施形態において、デバイス１２００はユーザインタフェース１２０５を備える。ある実施形態において、ユーザインタフェース１２０５は、プロセッサ１２０７に接続可能である。ある実施形態において、プロセッサ１２０７は、ユーザインタフェース１２０５の動作を制御して、ユーザインタフェース１２０５からの入力を受信可能である。ある実施形態において、ユーザインタフェース１２０５はユーザに、例えばキーパッドを介してデバイス１２００に対してコマンドを入力可能とするものである。ある実施形態において、ユーザインタフェース１２０５はユーザに、デバイス１２００から情報を取得可能とする。例えば、ユーザインタフェース１２０５は、デバイス１２００からの情報をユーザに表示するように構成されたディスプレイを備えてもよい。ある実施形態において、ユーザインタフェース１２０５はタッチスクリーンまたはタッチインタフェースを備えてもよい。これらはデバイス１２００への情報の入力と、デバイス１２００のユーザへの情報の表示の両方を実現可能である。

実施形態によっては、デバイス１２００は送受信部１２０９を備える。当該実施形態において、送受信部１２０９はプロセッサ１２０７に接続されて、別の装置または電子デバイスと、例えば無線通信ネットワークを介して通信可能とするように構成される。送受信部１２０９または任意の適切な送受信部または送信および／または受信手段は、ある実施形態において、有線または無線接続を介して別の電子デバイスまたは装置を通信するように構成されてもよい。

例えば図９に示すように、送受信部１２０９は頭部追跡部１０１、ＳＰＡＣデバイス１０５、またはヘッドホン１２１と通信するように構成されてもよい。

送受信部１２０９はさらなる装置と、任意の適切な公知の通信プロトコルにより通信可能である。例えばある実施形態において、送受信部２０９または送受信手段は、好適なユニバーサル移動体通信システム（Universal Mobile Telecommunications System：ＵＭＴＳ）プロトコル、例えばＩＥＥＥ８０２．Ｘ等の無線ローカルエリアネットワーク（Wireless Local Area Network：ＷＬＡＮ）プロトコル、Ｂｌｕｅｔｏｏｔｈ等の好適な短距離無線周波数通信プロトコル、または赤外線通信経路（Infrared Data communication pathway：ＩＲＤＡ）を用いうる。

ある実施形態において、デバイス１２００は、ミキサおよび／またはレンダリング装置としてさらに利用されてもよい。この場合、送受信部１２０９は、オーディオ信号および位置情報を受信し、適切なコードを実行するプロセッサ１２０７を利用して、適切なオーディオ信号レンダリングを生成するように構成されてもよい。デバイス１２００は、Ｄ／Ａコンバータ１２１３を備えてもよい。Ｄ／Ａコンバータ１２１３は、プロセッサ１２０７および／またはメモリ１２１１に接続されて、（例えば本明細書に記載のオーディオ信号のオーディオレンダリング後、プロセッサ１２０７からの）オーディオ信号のデジタル表現を、オーディオサブシステム出力を介して提供するのに適した、適切なアナログ形式に変換するように構成されてもよい。Ｄ／Ａコンバータ（ＤＡＣ）１２１３または信号処理手段は、ある実施形態において任意の適切なＤＡＣ技術を利用してもよい。

さらに、デバイス１２００は、ある実施形態において、オーディオサブシステム出力１２１５を備えてもよい。図９に示すような一例として、オーディオサブシステム出力１２１５はヘッドホン１２１への接続を可能とするように構成された出力ソケットであってもよい。ただし、オーディオサブシステム出力１２１５は、任意の適切なオーディオ出力またはオーディオ出力への接続部でありうる。例えば、オーディオサブシステム出力１２１５は、マルチチャネルスピーカシステムへの接続部であってもよい。

ある実施形態において、Ｄ／Ａコンバータ１２１３と、オーディオサブシステム１２１５とは、物理的に別々の出力デバイスで実施されてもよい。例えば、ＤＡＣ１２１３およびオーディオサブシステム１２１５が、送受信部１２０９を介してデバイス１２００と通信するコードレスイヤホンとして実施されてもよい。

図示のデバイス１２００は、オーディオキャプチャおよびオーディオレンダリング要素を両方備えているが、ある実施形態においては、デバイス１２００はオーディオキャプチャまたはオーディオレンダリング装置要素のみを備えてもよい。

一般に、本発明の様々な実施形態が、ハードウェアまたは特定用途向け回路、ソフトウェア、ロジック、またはそれらの組合せで実装されてもよい。例えば、ある態様はハードウェアで実装されてもよく、別の態様はコントローラやマイクロプロセッサ等のコンピュータデバイスによって実行されるファームウェアやソフトウェアで実装されてもよいが、本発明はこれらに限定されない。本発明の種々の態様はブロック図、フローチャート、または他の図的記述を使用して記述ないし図示される。本明細書に記載されるこれらのブロック、装置、システム、技術、方法は、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、特定用途向け回路やロジック、汎用ハードウェア、コントローラや他のコンピュータデバイス、またはそれらの組合せで実装されてもよいと理解されるべきである。

本発明の実施形態は、プロセッサエンティティ内にあるようなモバイルデバイスのデータプロセッサによって実行可能なコンピュータソフトウェアによって、またはハードウェアによって、またはソフトウェアとハードウェアの組合せによって実装されてもよい。またこの点に関して、添付する図面に示される論理フローの任意のブロックが、プログラムのステップや、相互接続された論理回路・ブロック・機能、またはプログラムのステップ、論理回路・ブロック・機能の組合せを表現してもよいことに留意されたい。ソフトウェアは、メモリチップ等の物理媒体、プロセッサ内に実装されるメモリブロック、ハードディスクやフレキシブルディスク等の磁気媒体、ＤＶＤ、そのデータ異形態であるＣＤ等の光学媒体に格納されてもよい。

メモリは、ローカルな技術環境に適したあらゆるタイプのものであってよく、例えば、半導体ベースのメモリデバイス、磁気メモリデバイス・システム、光学式メモリデバイス・システム、固定式メモリ、移動式メモリ等の様々な適合するデータ格納技術を用いて実装されてもよい。データプロセッサは、ローカルな技術環境に適したあらゆるタイプのものであってよく、非限定的な例として、１つ以上の汎用コンピュータ、特定用途向けコンピュータ、マイクロプロセッサ、デジタル信号プロセッサ（Digital Signal Processor：ＤＳＰ）、特定用途向け集積回路（Application Specific Integrated Circuit：ＡＳＩＣ）、ゲートレベル回路、マルチコアプロセッサ・アーキテクチャに基づくプロセッサを含んでもよい。

本発明の実施形態は、集積回路モジュールのような、様々な要素で実施されることもできる。集積回路の設計は多くは自動化されたプロセスである。論理レベルの設計を、半導体基板上にエッチング・形成するための半導体回路設計に変換する複雑で強力なソフトウェアツールが利用可能である。

カリフォルニア州マウンテンビューのＳｙｎｏｐｓｙｓ，Ｉｎｃや、カリフォルニア州サンノゼのＣａｄｅｎｃｅＤｅｓｉｇｎのような業者が提供するプログラムは、定評のある設計ルールと実績のある設計モジュールのライブラリに基づいて、半導体チップ上に導電経路や要素を自動的に配する。半導体回路の設計が完了すると、その設計は製造のために、ＯｐｕｓやＧＤＳＩＩ等の標準的な電子フォーマットの形で半導体製造設備、いわゆるｆａｂに送られる。

前述の説明は、本発明の例示的で非限定的な実施例を十分かつ詳細に記述している。しかし、こうした前述の説明を、添付する図面および特許請求の範囲と併せて考慮すれば、種々の修正および変更が可能であることは、本願に関連する技術分野の当業者には明らかであろう。さらに、本発明が教示するこうした事項の全ておよび類似する変形は、添付の特許請求の範囲で定義されるように、その全てが本発明の範囲内にある。

Claims

基準位置に対して少なくとも１つの音源の位置及び／又は向きを設ける手段と、
前記少なくとも１つの音源に対応付けられた少なくとも１つの入力オーディオ信号を分析し、前記少なくとも１つの入力オーディオ信号のための少なくとも１つの最大入力レベルを推定する手段と、
ユーザの位置及び／又は向きを決定する手段と、
前記少なくとも１つの音源の位置及び／又は向きと、前記ユーザの位置及び／又は向きとの間の差を決定する手段と、
前記少なくとも１つの最大入力レベルおよび前記差に基づいて、少なくとも１つの利得値を決定する手段であって、前記少なくとも１つの利得値は、前記少なくとも１つの入力オーディオ信号に対応付けられた第１周波数帯域のための、第１周波数帯域用レベル制御利得を含む、前記決定する手段と、
前記少なくとも１つの入力オーディオ信号と、方向伝達関数対と、前記少なくとも１つの利得値と、前記少なくとも１つの音源の位置及び／又は向きに少なくとも部分的に基づいて、少なくとも２つの出力チャネルを合成する手段と、
を備える装置。
前記設けることは、
少なくとも２つのマイクオーディオ信号を分析し、前記少なくとも１つの音源の位置及び／又は向きを決定することと、
前記少なくとも１つの入力オーディオ信号に対応付けられたメタデータから、前記少なくとも１つの音源の位置及び／又は向きを取得することと、
の少なくともいずれかを含み、前記メタデータは、ある周波数帯域に対する方向パラメータを含む、
請求項１に記載の装置。
前記基準位置に対する追跡部の位置および／または向き
を決定するようにさらに構成され、前記ユーザの位置及び／又は向きを決定することは、前記追跡部の位置及び／又は向きを決定することを含む、請求項１に記載の装置。
前記少なくとも１つの利得値を、前記少なくとも２つの出力チャネルのそれぞれの最大出力レベルに基づいて決定するように構成される、請求項１に記載の装置。
前記少なくとも１つの入力オーディオ信号と、前記方向伝達関数対と、前記第１周波数帯域用レベル制御利得と、前記差に基づいて、前記少なくとも２つの出力チャネルを合成するように構成された、請求項４に記載の装置。
デジタルコンパスからの方向、
ジャイロスコープからの方向、
ビーコン測位システムからの方向、
前記位置が未来の実際の追跡部位置を推定したものとなるように慣性および質量でモデル化された方向、
の内の少なくとも１つを受信するように構成される、請求項３に記載の装置。
前記入力オーディオ信号に対応付けられた第２周波数帯域に対する、第２周波数帯域用レベル制御利得；
第１出力チャネルに対する、第１出力チャネル用レベル制御利得；
第２出力チャネルに対する、第２出力チャネル用レベル制御利得；
の少なくともいずれかを、前記差に基づいて決定するように構成された、請求項１に記載の装置。
前記追跡部は、前記追跡部に対応付けられた方向を生成するように構成されたヘッドバンドを備え、前記方向はユーザの聴き取り方向に対応付けられている、請求項３に記載の装置。
前記ユーザの位置及び／又は向きは、前記装置の少なくとも一部の位置及び／又は向きを含み、
前記少なくとも２つの出力チャネルの出力信号値の少なくともいずれかを制限し、それによって、該出力信号値が定義されたパルス符号変調方式のダイナミックレンジに含まれるようにするようにさらに構成された、請求項１に記載の装置。
前記基準位置は、
少なくとも１つの空間的に取得される音源に対する原点位置および／または向き、
前記少なくとも１つの入力オーディオ信号をキャプチャするマイクアレイの位置及び／又は向き、
カメラに対する原点位置および／または向き、
前記少なくとも１つの音源が存在する音場面に対する原点位置および／または向き、
の内の少なくとも１つである、請求項１に記載の装置。
前記少なくとも２つの出力チャネルを合成することは、
前記差を用いる第１頭部伝達関数と、モデル化された左耳位置の組合せに、左レベル制御利得値を乗算することに基づいて、左出力チャネルオーディオ信号を生成することと、
前記差を用いる第２頭部伝達関数と、モデル化された右耳位置の組合せに、右レベル制御利得値を乗算することに基づいて、右出力チャネルオーディオ信号を生成することと、
を含む、請求項５に記載の装置。
前記少なくとも１つの利得値は、前記少なくとも１つの入力オーディオ信号が、少なくとも１つの推定最大入力レベルに達するレベルを有している場合に、前記少なくとも２つの出力チャネルのそれぞれのレベルが、該少なくとも２つの出力チャネルのそれぞれの最大出力レベルを超えないように制御するように構成される、請求項４に記載の装置。
基準位置に対して少なくとも１つの音源の位置及び／又は向きを設けることと、
前記少なくとも１つの音源に対応付けられた少なくとも１つの入力オーディオ信号を分析し、前記少なくとも１つの入力オーディオ信号のための少なくとも１つの最大入力レベルを推定することと、
ユーザの位置及び／又は向きを決定することと、
前記少なくとも１つの音源の位置及び／又は向きと、前記ユーザの位置及び／又は向きとの間の差を決定することと、
前記少なくとも１つの最大入力レベルおよび前記差に基づいて、少なくとも１つの利得値を決定することであって、前記少なくとも１つの利得値は、前記少なくとも１つの入力オーディオ信号に対応付けられた第１周波数帯域のための、第１周波数帯域用レベル制御利得を含む、前記決定することと、
前記少なくとも１つの入力オーディオ信号と、方向伝達関数対と、前記少なくとも１つの利得値と、前記少なくとも１つの音源の位置及び／又は向きに少なくとも部分的に基づいて、少なくとも２つの出力チャネルを合成することと、
を含む方法。
前記設けることは、
少なくとも２つのマイクオーディオ信号を分析し、前記少なくとも１つの音源の位置及び／又は向きを決定することと、
前記少なくとも１つの入力オーディオ信号に対応付けられたメタデータから、前記少なくとも１つの音源の位置及び／又は向きを取得することと、
をの少なくともいずれか含み、前記メタデータは、ある周波数帯域に対する方向パラメータを含む、
請求項１３に記載の方法。
前記基準位置に対する追跡部の位置および／または向きを決定することを更に含み、前記ユーザの位置及び／又は向きを決定することは、前記追跡部の位置および／または向きを決定することを含む、請求項１３に記載の方法。
前記少なくとも１つの利得値を、前記少なくとも２つの出力チャネルのそれぞれの最大出力レベルに基づいて決定することを更に含む、請求項１３に記載の方法。
前記少なくとも１つの入力オーディオ信号と、前記方向伝達関数対と、前記第１周波数帯域用レベル制御利得と、前記差に基づいて、前記少なくとも２つの出力チャネルを合成することを更に含む、請求項１６に記載の方法。
前記入力オーディオ信号に対応付けられた第２周波数帯域に対する、第２周波数帯域用レベル制御利得；
第１出力チャネルに対する、第１出力チャネル用レベル制御利得；
第２出力チャネルに対する、第２出力チャネル用レベル制御利得；
の少なくともいずれかを、前記差に基づいて決定することを更に含む、請求項１６に記載の方法。
前記少なくとも２つの出力チャネルを合成することは、
前記差を用いる第１頭部伝達関数と、モデル化された左耳位置の組合せに、左レベル制御利得値を乗算することに基づいて、左出力チャネルオーディオ信号を生成することと、
前記差を用いる第の頭部伝達関数と、モデル化された右耳位置の組合せに、右レベル制御利得値を乗算することに基づいて、右出力チャネルオーディオ信号を生成することと、
を含む、請求項１７に記載の方法。
前記少なくとも１つの利得値は、前記少なくとも１つの入力オーディオ信号が、少なくとも１つの推定最大入力レベルに達するレベルを有している場合に、前記少なくとも２つの出力チャネルのそれぞれのレベルが、該少なくとも２つの出力チャネルのそれぞれの最大出力レベルを超えないように制御するように構成される、請求項１７に記載の方法。
処理手段及び記憶手段を備える装置であって、前記記憶手段はプログラム命令を格納し、前記プログラム命令は、前記処理手段に実行されると、前記装置に、請求項１３から２０のいずれかに記載の方法を遂行させるように構成される、装置。
装置の処理手段に実行されると、前記装置に、請求項１３から２０のいずれかに記載の方法を遂行させるように構成されるプログラム命令を備える、コンピュータプログラム。