JP2019506058A

JP2019506058A - 没入型オーディオ再生のための信号合成

Info

Publication number: JP2019506058A
Application number: JP2018535000A
Authority: JP
Inventors: モール、ヨアフ; コーン、ベンジャミン; エリン、アレックス
Original assignee: ３ディスペイスサウンドソリューションズリミテッド
Priority date: 2016-01-19
Filing date: 2017-01-04
Publication date: 2019-02-28
Anticipated expiration: 2037-01-04
Also published as: EP3406088A4; KR102430769B1; AU2017210021B2; EP3406088A1; JP6820613B2; DK3406088T3; US20190020963A1; CA3008214A1; SG11201804892PA; AU2017210021A1; CA3008214C; ES2916342T3; CN108476367B; KR20180102596A; WO2017125821A1; CN108476367A; US10531216B2; EP3406088B1

Abstract

サウンドを合成する方法は、それぞれモノラルオーディオトラック（８２）を有する１つまたはそれ以上の第１の入力（８０）を受信するステップを有する。第１の入力に関連する、方位角座標および仰角座標を有するそれぞれの３次元（３Ｄ）音源位置を示す、１つまたは複数の第２の入力が受信される。それぞれの３次元音源位置の方位角座標および仰角座標に依存するフィルタ応答関数に基づいて、それぞれ左と右のフィルタ応答がそれぞれの第１の入力に割り当てられる。それぞれの左と右のフィルタ応答を第１の入力に適用することによって左と右のステレオ出力信号（９４）が合成される。【選択図】図２

Description

本発明は、一般的にオーディオ信号の処理に関し、そして特にオーディオ出力の生成と再生のための方法、システムおよびソフトウェアに関するものである。

（関連出願の相互参照）
本出願は２０１６年１月１９日出願の米国暫定出願第６２／２８０，１３４（特許文献１）、２０１６年９月２８日出願の米国暫定出願第６２／４００，６９９（特許文献２）、および２０１６年１２月１１日出願の米国暫定出願第６２／４３２，５７８（特許文献３）の恩恵を主張し、それらはここに参照して取り入れられる。

近年、オーディオの記録および再生の進歩により、リスナーを取り囲む複数のスピーカからオーディオを再生する、没入感のある「サラウンドサウンド」の開発が促進された。例えば、家庭用のサラウンドサウンドシステムは、「５．１」および「７．１」として知られている構成を含み、そこでは５または７チャンネル（リスナーの前に３つのスピーカ、そして追加のスピーカがリスナーの側面、および場合によって背後または上方に配置される）にサブウーファが加わる。

一方、今日の多数のユーザは、ステレオヘッドホンを介して、通常、携帯型オーディオプレーヤーおよびスマートフォンを介して、音楽および他のオーディオコンテンツを聴いている。マルチチャンネルサラウンド録音は、５．１チャンネルまたは７．１チャンネルから２チャンネルにダウンミックスされているため、リスナーはサラウンド録音で提供できる没入感のあるオーディオ体験の多くを失う。

マルチチャネルオーディオをステレオにダウンミックスするための様々な技術が特許文献に記載されている。例えば、米国特許第５，７４２，６８９号（特許文献４）は、マルチチャネルオーディオ信号を処理する方法を記載し、そこでは部屋中に配置された複数の「ファントム」ラウドスピーカの感覚を、ヘッドホンを介して生成するように、それぞれのチャネルが部屋の特定の場所に配置されたラウドスピーカに対応している。頭部伝達関数（ＨＲＴＦ）は、リスナーに対するそれぞれの意図されたスピーカの仰角および方位角に従って選択される。各チャンネルは、左と右のチャンネルに結合されヘッドホンで再生されるときに、リスナーが「仮想」部屋全体に配置されたファントムスピーカによって実際に生成される音を感知するように、ＨＲＴＦでフィルタリングされる。

他の例として、米国特許第６，４２１，４４６号（特許文献５）は、仰角を含む両耳合成を使用してヘッドホン上に３次元オーディオイメージングを生成する装置を記載している。ヘッドホンを介してオーディオ信号を聞く人が知覚するオーディオ信号の見かけ上の位置は、距離制御ブロックおよび位置制御ブロックによって方位角、仰角およびレンジ内で位置決めまたは移動することができる。位置決めまたは移動される入力オーディオ信号の数に応じて、いくつかの距離制御ブロックおよび位置制御ブロックを設けることができる。

米国暫定出願第６２／２８０，１３４米国暫定出願第６２／４００，６９９米国暫定出願第６２／４３２，５７８米国特許第５，７４２，６８９号米国特許第６，４２１，４４６号

以下に説明される本発明の実施形態は、オーディオ信号を合成するための改良された方法、システム、およびソフトウェアを提供する。

したがって、本発明の一実施形態によれば、それぞれモノラルオーディオトラックを有する１つまたはそれ以上の第１の入力を受信するステップを有する、サウンドを合成する方法が提供される。第１の入力に関連する、方位角座標および仰角座標を有するそれぞれの３次元（３Ｄ）音源位置を示す、１つまたは複数の第２の入力が受信される。それぞれの３次元音源位置の方位角座標および仰角座標に依存するフィルタ応答関数に基づいて、それぞれ左と右のフィルタ応答が第１の入力のそれぞれに割り当てられる。それぞれの左と右のフィルタ応答を第１の入力に適用することによって左と右のステレオ出力信号が合成される。

いくつかの実施形態では、１つ以上の第１の入力は複数の第１の入力を有し、そして左と右のステレオ出力信号を合成するステップは、第１の入力の各々にそれぞれの左と右のフィルタ応答を適用し、それぞれ左と右のステレオ成分を生成するステップと、左と右のステレオ成分を全ての第１の入力にわたって合計するステップと、を有する。開示された実施形態では、左と右のステレオ成分を合計するステップは、出力信号の再生時に、クリッピングを防止するために合計された成分にリミッタを適用するステップを有する。

追加的にまたは代替的に第２の入力のうちの少なくとも１つは、空間での３次元軌道を特定し、そして左と右のフィルタ応答を割り当てるステップは、３次元軌道に沿った複数の点のそれぞれにおいて、点の方位角座標および仰角座標に応じて軌道上で変化するフィルタ応答を特定するステップを有する。左と右のステレオ出力信号を合成するステップは、第２の入力の少なくとも１つに関連する第１の入力に対し、３次元軌道に沿った点に対して特定されたフィルタ応答を順次適用するステップを有する。

いくつかの実施形態では、１つ以上の第２の入力を受信するステップは：軌道の開始点および開始時間を受信するステップと；軌道の終了点および終了時間を受信するステップと；そして軌道が開始時間から終了時間の間に横断されるように、開始点と終了点との間の３次元軌道を自動的に計算するステップと、を有する。開示された実施形態では、３次元軌道を自動的に計算するステップは、方位座標及び仰角座標の原点を中心とする球面上の経路を計算するステップを有する。

いくつかの実施形態では、フィルタ応答関数は、仰角座標の関数として変化する、所与の周波数のノッチを含む。

さらに追加的にまたは代替的に１つ以上の第１の入力は第１の複数のオーディオ入力トラックを含み、左と右のステレオ出力信号を合成するステップは：第２の複数の合成入力を生成するため、第１の複数の入力オーディオトラックを空間的にアップサンプリングするステップと、ここで第２の複数の合成入力は、第１の入力に関連するそれぞれの３次元音源位置とは異なるそれぞれの座標を有する合成音源位置を有し；合成された３次元音源位置の方位角座標および仰角座標で計算されたフィルタ応答関数を使用して合成入力をフィルタリングするステップと；そしてそれぞれの左と右のフィルタ応答を用いて第１の入力をフィルタリングした後、フィルタリングされた合成入力をフィルタリングされた第１の入力と加算してステレオ出力信号を生成するステップ；を有する。

いくつかの実施形態では、第１の複数の入力オーディオトラックを空間的にアップサンプリングするステップは、入力オーディオトラックにウェーブレット変換を適用して入力オーディオトラックのそれぞれのスペクトログラムを生成するステップと、そして３次元音源位置にしたがってスペクトログラム間を補間して、合成された入力を生成するステップとを有する。１つの実施形態では、スペクトログラム間を補間するステップは、スペクトログラムにおける点間のオプティカルフロー関数を計算するステップを有する。

開示された実施形態では、左と右のステレオ出力信号を合成するステップは、第１の入力から低周波成分を抽出するステップを有し、それぞれの左および右のフィルタ応答を適用するステップは、低周波成分抽出後の第１の入力をフィルタリングするステップと、そしてその後フィルタリングされた第１の入力に抽出された低周波成分を加算するステップとを有する。

追加的にまたは代替的に、３次元音源位置は、第１の入力に関連するレンジ座標を有し、左と右のステレオ出力を合成するステップは、関連するレンジ座標に応じて第１の入力をさらに修正するステップを有する。

したがって、本発明の一実施形態によれば、サウンドを合成する装置であって：それぞれモノラルオーディオトラックを有する１つまたはそれ以上の第１の入力を受信し、そして第１の入力に関連する、方位角座標および仰角座標を有するそれぞれの３次元（３Ｄ）音源位置を示す、１つまたは複数の第２の入力を受信するように構成される、入力インタフェースと；を有する装置が提供される。プロセッサは、それぞれの３次元音源位置の方位角座標および仰角座標に依存するフィルタ応答関数に基づいて、それぞれ左と右のフィルタ応答をそれぞれ第１の入力の割り当て、そしてそれぞれの左と右のフィルタ応答を第１の入力に適用することによって左と右のステレオ出力信号を合成する、ように構成される。

１つの実施形態によれば、装置は、左と右のステレオ出力信号をそれぞれ再生するように構成される、左スピーカおよび右スピーカを有するオーディオ出力インタフェースを備える。

したがって、本発明の一実施形態によれば、コンピュータソフトウェアからなる製品であって、プログラム命令が格納される非一過性のコンピュータ可読媒体を有し、プログラム命令はコンピュータによって読み取られると、コンピュータに対し：それぞれモノラルオーディオトラックを有する１つまたはそれ以上の第１の入力を受信させ、そして第１の入力に関連する、方位角座標および仰角座標を有するそれぞれの３次元（３Ｄ）音源位置を示す、１つまたは複数の第２の入力を受信させる、製品がさらに提供される。その命令はコンピュータに対し：それぞれの３次元音源位置の方位角座標および仰角座標に依存するフィルタ応答関数に基づいて、それぞれ左と右のフィルタ応答をそれぞれの第１の入力に割り当てさせ、そしてそれぞれの左と右のフィルタ応答を第１の入力に適用することによって左と右のステレオ出力信号を合成させる。

本発明は、付属の図面を参照した実施形態の詳細説明から、より十分に理解されよう：
本発明の１実施形態による、オーディオ合成と再生のためのシステムの絵画的概略図である。本発明の１実施形態による、図１のシステムにおけるユーザインタフェース画面の概略図である。本発明の１実施形態による、マルチチャネルオーディオ入力をステレオ出力に変換する方法を概略示す、流れ図である。本発明の１実施形態による、オーディオ出力を合成する方法を概略示すブロック図である。本発明の１実施形態による、オーディオ信号をフィルタリングする方法を概略示す、流れ図である。

（概論）
当技術分野で知られているオーディオミキシングおよび編集ツールにより、ユーザは、複数の入力オーディオトラック（例えば、異なる楽器および／または音声から記録された）を左と右のステレオ出力信号に結合することができる。しかしながら、このようなツールは、一般に、左と右の出力間で入力を分割する際の柔軟性が限定的であり、リスナーが実際の環境から得るオーディオ没入感を再現することはできない。サラウンドサウンドをステレオに変換するための当該技術分野で知られている方法は、同様に元の録音の没入型オーディオ体験を維持することができない。

本明細書で説明される本発明の実施形態は、ステレオヘッドホンを介して完全な３次元（３Ｄ）オーディオ環境を現実的に再現することができるサウンドを合成するための方法、システム、およびソフトウェアを提供する。これらの実施形態は、空間オーディオキューに対する人間リスナーの応答を新規な方法で利用し、それは左と右の耳に聞こえる音量の差異だけでなく、方位角と仰角の両方の関数としての人間の聴覚系の周波数応答の差異を含む。特に、いくつかの実施形態は、音源の仰角座標の関数として変化する、所与の周波数でノッチを含む、フィルタ応答関数を使用する。

開示された実施形態では、プロセッサは、入力としての１つ以上のモノラルオーディオトラックと、各入力に関連付けられたそれぞれの３次元音源位置とを受け取る。システムのユーザは、距離だけでなく、例えば少なくとも各音源の方位角および仰角の座標に関して、これらの音源位置を任意に特定することができる。したがって、音楽トラック、ビデオサウンドトラック（映画またはゲームなど）および／または他の環境音の複数の音源は、水平面においてだけでなく、リスナーのヘッドレベルの上下の異なる仰角でも特定することができる。

オーディオトラック（１つまたは複数）をステレオ信号に変換するために、プロセッサは、それぞれの３次元音源位置の方位角および仰角座標に依存するフィルタ応答関数に基づいて、各入力にそれぞれの左および右フィルタ応答を割り当てる。プロセッサは、左と右のステレオ出力信号を合成するために、これらのフィルタ応答を対応する入力に適用する。異なる音源位置を有する複数の入力が一緒に混合される場合、プロセッサは、それぞれの入力に適切なそれぞれの左と右のフィルタ応答を適用して、それぞれの左と右のステレオ成分を生成する。左のステレオ成分は、次に、左のステレオ出力を生成するためにすべての入力にわたって合計され、右のステレオ成分も右のステレオ出力を生成するために合計される。出力信号の再生時にクリッピングを防止するために、合計された成分にリミッタを適用することができる。

本発明のいくつかの実施形態は、プロセッサが空間内の３次元軌道に沿った音源の動きをシミュレートすることを可能にし、ステレオ出力は、音源が再生中に実際に動いているという感覚をリスナーに与える。この目的のために、ユーザは、軌道の開始点および終了点ならびに対応する開始および終了時間を入力することができる。プロセッサは、開始点および終了点の方位角座標および仰角座標の原点を中心とする球の表面上の経路を計算することによって、この基準で３次元軌道を自動的に計算する。あるいは、ユーザは、実質的に任意の所望の幾何学的特性の軌道を生成するために、任意の点の列を入力することができる。

どのように軌道が導出されるかに関わらず、プロセッサは、３次元軌道に沿った複数の点で、点の方位角座標および仰角座標、場合によっては距離座標の関数として変化するフィルタ応答を計算する。次に、プロセッサは、特定の開始時間と終了時間との間の期間にわたって、音源が開始点と終了点との間の軌道に沿って移動したという錯覚を生成するために、これらのフィルタ応答を対応するオーディオ入力に順次適用する。この機能は、歌手やミュージシャンが劇場の周りを移動するライブパフォーマンスの感覚をシミュレートするため、またはコンピュータゲームやエンターテインメントアプリケーションの臨場感を高めるために使用できる。

リスナーのオーディオ体験の豊かさと信頼性を高めるには、実際にユーザが特定した音源以外に仮想音源を追加すると効果的である。この目的のために、プロセッサは、実際の入力に関連するそれぞれの３次元音源位置とは異なる独自の合成３次元音源位置を有する、追加の合成入力を生成するために、入力オーディオトラックを空間的にアップサンプリングする。アップサンプリングは、例えばウェーブレット変換を使用して入力を周波数領域に変換し、得られたスペクトログラムの間を補間して合成された入力を生成することによって行うことができる。プロセッサは、合成された音源位置の方位角および仰角座標に適したフィルタ応答関数を使用して合成入力をフィルタリングし、フィルタリングされた合成入力をフィルタリングされた実際の入力と合計してステレオ出力信号を生成する。

本発明の原理は、広範囲の用途のステレオ出力の生成に適用することができる。例えば、
・ユーザが指定した任意の音源位置を有する、１つまたは複数のモノラルトラックからステレオ出力の合成。
・サラウンド録音（５．１や７．１など）のステレオ出力への変換、ここで音源位置は、標準スピーカの位置に対応。
・ライブコンサートやその他のライブイベントからのリアルタイムステレオ生成、任意の音源位置に配置された複数のマイクからの同時入力、そしてステレオへのオンラインダウンミキシング。（この種のリアルタイムダウンミキシングを実行する装置は、例えば、イベントのサイトに駐車された放送バンに設置することができる）。
他の用途は、本明細書を読んだ後の当業者には明らかであろう。そのような用途はすべて本発明の範囲内にあると考えられる。

（システムの記述）
図１は、本発明の一実施形態による、オーディオ合成および再生のためのシステム２０の絵画的概略図である。システム２０は、複数のオーディオ入力を受信し、そのそれぞれは、それぞれのモノラルオーディオトラックおよび、オーディオ入力に関連づけられるべき、方位角座標および仰角座標を有するそれぞれの３次元（３Ｄ）音源位置を示す、対応する位置入力を有する。システムは、この例ではリスナー２２が着用するステレオヘッドホン２４で再生される左と右のステレオ出力信号を合成する。

入力は、典型的には、それぞれが異なる音源位置にあるミュージシャン２６，２８，３０および３２によって図１に表される、複数のモノラルオーディオトラックを含む。音源位置は、リスナー２２の頭部の中央に位置する原点に対する座標でシステム２０に入力される。リスナーの頭部を通過する水平面をＸＹ平面とすると、音源の座標は、方位角（すなわち、ＸＹ平面上に投影される光源角）および平面の上または下の仰角の両方で特定可能である。いくつかのケースでは、レンジは以下の実施形態において明示的に考慮されないけれども、音源のそれぞれのレンジ（すなわち、原点からの距離）も特定可能である。

オーディオトラックおよびそれぞれの音源位置座標は、通常、システム２０のユーザ（例えば、リスナー２２またはサウンドエンジニアなどのプロのユーザ）によって入力される。ミュージシャン２８および３０の場合、彼らがそれぞれのパートを演奏する間に彼らの動きをシミュレートするために、ユーザによって入力される音源位置は時間とともに変化する。言い換えれば、入力されたオーディオトラックが静止したモノラルマイクによって記録され、例えば、録音中にミュージシャンが静止している場合でも、ユーザは、出力が１人または複数のミュージシャンが動いている状態をシミュレートするようにさせることができる。ユーザは、空間と時間において開始点と終了点を有する軌道の形で動きを入力することができる。得られたステレオ出力信号は、リスナー２２にこれらのオーディオ音源の３次元の動きを知覚させる。

図示された例では、ステレオ信号は、スマートフォンのようなモバイル装置３４によってヘッドホン２４に出力され、それはストリーミングリンクによりネットワーク３８を介してサーバ３６から信号を受信する。あるいは、ステレオ信号を含むオーディオファイル出力信号は、モバイルデバイス３４のメモリにダウンロードされて記憶されてもよく、または光ディスクなどの固定媒体に記録されてもよい。あるいは、ステレオ信号は、とりわけ、セットトップボックス、テレビ、カーラジオまたはカーエンターテイメントシステム、タブレット、またはラップトップコンピュータなどの他のデバイスから出力されてもよい。

以下の説明において、明瞭かつ具体化のため、サーバ３６が左と右のステレオ出力信号を合成することを前提とする。しかしながら、代わりに、モバイルデバイス３４上のアプリケーションソフトウェアが、本発明の実施形態に従って、関連する位置を有する入力トラックをステレオ出力に変換するステップのすべてまたは一部を実行してもよい。

サーバ３６は、本明細書で記載される機能を実行するためにソフトウェアでプログラムされた、一般に汎用コンピュータプロセッサであるプロセッサ４０を備える。このソフトウェアは、例えば、ネットワークを介して電子形式でプロセッサ４０にダウンロードされてもよい。代替的または追加的に、ソフトウェアは、光学的、磁気的または電子的記憶媒体などの有形の非一過性コンピュータ可読媒体に格納されてもよい。さらに代替的にまたは追加的に、本明細書で記載されるプロセッサ４０の機能の少なくとも一部は、プログラマブルデジタル信号プロセッサ（ＤＳＰ）によって、または他のプログラム可能またはハードワイヤードロジックによって実行されてもよい。サーバ３６は、さらに、メモリ４２と、インタフェースを有し、インタフェースはネットワーク３８へのネットワークインタフェース４４およびユーザインタフェース４６を含み、それらはいずれもオーディオ入力およびそれぞれの音源位置を受信するための入力インタフェースとして機能することができる。

上述したように、プロセッサ４０は、ミュージシャン２６，２８，３０，３２，によって表される入力のそれぞれに、それぞれの３次元音源の方位角座標および仰角座標に依存するフィルタ応答関数に基づいて、それぞれ左と右のフィルタ応答を適用し、そしてそれにより左と右のステレオ成分を生成する。プロセッサ４０は、左と右のステレオ出力を生成するために、これらの左と右のステレオ成分を全ての入力にわたって合計する。このプロセスの詳細を以下に説明する。

図２は、本発明の実施形態によるサーバ３６（図１）のユーザインタフェース４６によって提示されるユーザインタフェース画面の概略図である。この図は、ヘッドホン２４へのステレオ出力の生成に使用される、オーディオ入力の位置および場合によっては軌道をユーザがどのように指定できるかを特に示している。

ユーザは、入力フィールド５０にトラック識別子を入力することによって、各入力トラックを選択する。例えば、ユーザは、メモリ４２に格納されたオーディオファイルをブラウズし、入力フィールド５０にファイル名を入力することができる。それぞれの入力トラックに対して、ユーザは、スクリーン上のコントロール５２および／または専用のユーザ入力装置（図示せず）を使用して、リスナーの頭部の中心における、方位角、仰角および原点に対する可能なレンジ（距離）での初期位置座標を選択する。選択された方位角および仰角は、表示領域５６内で開始点５４としてマーキングされ、それは頭部５８に対する音源位置を表す。選択されたトラックの音源が静止している場合、この段階ではそれ以上の位置入力は不要である。

他方、（図１のミュージシャン２８および３０の動きをシミュレートする場合のように）移動する音源位置に対して、スクリーン４６は、ユーザが空間内の３次元軌道７０を特定することを可能にする。この目的のために、スクリーン上のコントロール５２は、軌道の開始点５４を示すように調整され、開始時間入力６２は、軌道の開始時間を示すためにユーザによって選択される。同様に、ユーザは、終了時間入力６４および終了位置入力６６を使用して、軌道の終了時間および終了点６８を入力する（通常、コントロール５２のように、方位角、仰角、場合によってはレンジの制御を使用する）。必要に応じて、より複雑な軌道を生成するために、ユーザは、所望の経路のコースに沿った空間および時間の追加ポイントを入力することができる。

さらに別の選択肢として、サーバ３６によって生成されるステレオ出力がサウンドトラックとしてビデオクリップに結合される場合、ユーザは、ビデオクリップ内の開始および終了フレームとして開始時間および終了時間を示すことができる。この使用の場合、ユーザは、追加的または代替的に、特定のビデオフレーム内の位置を指すことによって音源位置を示すことができる。

プロセッサ４０は、上記のユーザ入力に基づいて、開始点５４と終了点６８との間の３次元軌道７０を、開始時間から終了時間まで選択された速度で軌道が横断されるように自動的に計算する。図示の例では、軌道７０は、方位角、仰角および距離の座標の原点を中心とする球の表面上の経路から構成される。あるいは、プロセッサ４０は、ユーザの制御下で、完全に自動的にまたは対話的に、より複雑な軌道を計算することができる。

ユーザが所与のオーディオ入力トラックの軌道７０を特定すると、プロセッサ４０は、軌道に沿った点の方位角、仰角およびレンジ座標に基づいて軌道に亘って変化するフィルタ応答を、この軌道に割り当て、そして適用する。プロセッサ４０は、これらのフィルタ応答をオーディオ入力に順次適用して、対応するステレオ成分が軌道に沿った現在の座標に従って経時的に変化するようにする。

図３は、本発明の一実施形態による、マルチチャネルオーディオ入力をステレオ出力に変換する方法を概略的に示すフローチャートである。この例では、サーバ３６の機能が、５．１サラウンド入力８０を２チャンネルステレオ出力９２に変換する際に適用される。したがって、先の例とは対照的に、プロセッサ４０は、５．１システムの中央（Ｃ）、左（Ｌ）、右（Ｒ）、左と右のサラウンド（ＬＳ、ＲＳ）スピーカの位置に相当する固定音源位置を有する５つのオーディオ入力トラック８２を受信する。類似の技術を、７．１サラウンド入力をステレオに変換する場合に、また３次元空間内の任意の所望の分布の音源位置（標準またはその他）を有するマルチトラックオーディオ入力を変換する場合に適用することができる。

リスナーのオーディオ体験を豊かにするために、プロセッサ４０は、入力トラック８２をアップミックス（すなわち、アップサンプリング）して、リスナーを取り囲む３次元空間内の追加の音源位置に合成入力−「仮想スピーカ」を作成する。この実施形態におけるアップミキシングは、周波数領域において実行される。したがって、予備ステップとして、プロセッサ４０は、例えば、入力オーディオトラックにウェーブレット変換を適用することによって、入力トラック８２を対応するスペクトログラム８４に変換する。スペクトログラム８４は、時間の経過に対する周波数の２次元プロットとして表すことができる。

ウェーブレット変換は、ゼロ平均減衰有限関数（マザーウェーブレット）を使用して、各オーディオ信号を時間と周波数に限定される１組のウェーブレット係数に分解する。連続ウェーブレット変換は、マザーウェーブレットのスケーリングされた、シフトされたバージョンを乗算した信号の全時間にわたる合計である。このプロセスは、スケールおよび位置の関数であるウェーブレット係数を生成する。本実施形態で使用されるマザーウェーブレットは、以下のように定義されるガウス関数で変調されたサインカーブを含む複雑なモーレットウェーブレットである：

あるいは他の種類のウェーブレットがこの目的のために使用できる。さらに代替的に、本発明の原理は、必要な変更を加えて、他の時間―および空間―領域変換を使用して、多重のオーディオチャネルを分解するのに適用することができる。

数学的表現では、連続ウェーブレット変換は次の式で示される：

ここでχ_ｎはデジタル化された時間のシリーズであり、時間ステップδtを有し、ｎ＝1，…Ｎであり、ｓはスケールであり、ψ_０（η）はスケーリンングされ、変換された（シフトされた）マザーウェーブレットである。ウェーブレットパワーは以下で定義される：

マザーウェーブレットは時間ステップδtを持つ信号に対し、係数√（δt／ｓ）により正規化され、ここでｓはスケールである。加えて、ウェーブレット係数は信号の分散（σ^２）により正規化され、ホワイトノイズに対するパワーの相対値を生成する。

計算を容易にするため、連続ウェーブレット変換は次の式でも表される：

ここでχ_ｋ^は信号χ_ｎのフーリエ変換であり；ψ^はマザーウェーブレットのフーリエ変換であり、＊は複素共役を示し、ｓはスケールであり、ｋ＝０…Ｎ−１であり、そしてｉは基本虚数単位√−１である。

プロセッサ４０は、元の入力トラック８２および合成入力８８の両方を含む１組のオーバーサンプリングされたフレーム８６を生成するために、入力８０内のスピーカの３次元音源位置に従ってスペクトログラム８４の間を補間する。このステップを実行するためプロセッサ４０は、リスナーを取り囲む球面空間内のそれぞれの位置における周波数領域の仮想スピーカを表す中間スペクトログラムを計算する。この目的のために、本実施形態では、プロセッサ４０は、隣接するスピーカの各ペアを「映画フレーム」として、スペクトログラム内のデータ点を「ピクセル」として扱い、そして空間および時間においてそれらの間に仮想的に位置するフレームを補間する。言い換えれば、周波数領域における元のオーディオチャネルのスペクトログラム８４は画像として扱われ、ここで、ｘは時間であり、ｙは周波数であり、色強度はスペクトルパワーまたは振幅を示すために使用される。

フレームＦ_０とＦ_１の各ペアの間に、それぞれの時間ｔ_０とｔ_１において、プロセッサ４０はフレームＦ_ｉを挿入し、それは時間ｔ_ｉにおける補間されたスペクトログラムのマトリックスであり、（ｘ，ｙ）座標のピクセルを有し、次式で与えられる：

いくつかの実施形態では、スペクトログラム内の高パワー要素の動きをも考慮する。

プロセッサ４０はオプティカルフローに従ってこの「画像」を徐々に変形させる。オプティカルフローフィールドＶｘ，ｙは、各ピクセル（ｘ，ｙ）に対して、２つの要素［ｘ，ｙ］を有するベクトルを定義する。結果として得られる画像内の各ピクセル（ｘ，ｙ）について、プロセッサ４０は、例えば以下に説明するアルゴリズムを使用して、フィールドＶｘ，ｙ内のフローベクトルを検索する。このピクセルは、ベクトルＶｘ，ｙに沿って後方に位置する点から「来た」と考えられ、そして同じベクトルの前方に沿った点に「これから行く」と考えられる。Ｖｘ，ｙは、第１のフレームのピクセル（ｘ，ｙ）から第２のフレームの対応するピクセルまでのベクトルであるので、プロセッサ４０は、この関係を使用して、後方座標［ｘ_ｂ，ｙ_ｂ］および前方座標［ｘ_ｆ，ｙ_ｆ］を見つけることが出来、これら座標は中間の‘画像）を補間に使用される：

上述したフローベクトルＶｘ，ｙを決定するために、プロセッサ４０は、第１のフレームを（所定のサイズの、ここでは「ｓ」で示される）正方形ブロックに分割し、そしてこれらのブロックは第２のフレームの同じサイズのブロックにマッチングされ、それらのブロックは最大距離ｄ以内にある。このプロセスの疑似コードは次のとおり：

上述したように、すべての仮想スピーカ（合成入力８８）についてスペクトログラムが計算されると、プロセッサ４０は、ウェーブレット再構成を適用して、実際の入力トラック８２と合成入力８８の両方の時間領域表現９０を再生する。例えば、デルタ関数に基づいて、以下のウェーブレット再構成を使用することができる：

ここで、χ_ｎは時間ステップδ_ｔを伴う再構成された時系列であり；δ_jは周波数分解能であり；Ｃ_δはω_０＝６のＭｏｒｌｅｔウェーブレットの場合、０．７７６に等しい定数であり；ψ_０（０）はマザーウェーブレットから導出され、π^−１／４と等価であり；Ｊはスケールの数であり；ｊはフィルタの限界を定義する指標であり、ここでｊ＝ｊ_１．．．ｊ_２かつ０≦ｊ_１<ｊ_２≦Ｊ；ｓ_ｊはｊ_ｔｈ番目のスケールであり；そしてＲは複素ウェーブレットＷ_ｎの実数部分である。

時間領域表現９０をステレオ出力９２にダウンミックスするために、プロセッサ４０は、実際のおよび合成された３次元音源位置のそれぞれの方位角座標および仰角座標で計算されたフィルタ応答関数を使用して、実際のおよび合成の入力をフィルタリングする。このプロセスは、フィルタの頭部伝達関数（ＨＲＴＦ）データベースを使用し、場合によっては、音源位置のそれぞれの仰角に対応するノッチフィルタも使用する。プロセッサ４０は、χ（ｎ）として示される各チャネル信号について、リスナーに対するその位置に適合する左と右のＨＲＴＦフィルタのペアで信号を畳み込む。この計算では、通常、離散時間畳み込みを使用する：

ここで、χは、実際の又は仮想のスピーカを表す、上記ウェーブレット再構成の出力であるオーディオ信号であり、ｎはその信号の長さであり、Ｎは左ＨＲＴＦフィルタｈＬ及び右ＨＲＴＦフィルタｈＲの長さである。これらの畳み込みの出力は、出力ステレオ信号の左および右の成分であり、それに応じてｙＬおよびｙＲとして示される。

例えば、５０°の仰角および６０°の方位角の仮想スピーカを仮定すると、オーディオは、これらの方向に関連する左のＨＲＴＦフィルタと、これらの方向に関連する右のＨＲＴＦフィルタと、場合によっては５０°の仰角に対応するノッチフィルタで畳み込まれる。畳み込みによって左と右のステレオコンポーネントが作成され、リスナーは音の方向性を知覚することができる。プロセッサ４０は時間領域表現９０内の全てのスピーカについてこの計算を繰り返し、ここで各スピーカは（対応する音源位置に従って）異なるフィルタのペアで畳み込まれる。

さらに、いくつかの実施形態では、プロセッサ４０は、３次元音源位置のそれぞれのレンジ（距離）に従ってオーディオ信号を変調する。例えば、プロセッサ４０は、そのレンジに従って信号の音量を増幅または減衰させることができる。追加的または代替的に、プロセッサ４０は、対応する音源位置の増加するレンジを有する１つまたは複数の信号に残響を加えることができる。

適切な左および右のフィルタ応答を使用してすべての（実際のおよび合成の）信号をフィルタリングした後、プロセッサ４０は、フィルタリングされた結果を合計して、ステレオ出力９２を生成し、それは畳込みによって生成されたすべてのｙＬ成分の合計である左チャネル９４と、すべてのｙＲ成分の合計である右チャネル９４から構成される。

図４は、本発明の一実施形態による、これらの左と右のオーディオ出力コンポーネントを合成する方法を概略的に示すブロック図である。この実施形態では、プロセッサ４０は、リアルタイムですべての計算を実行することができ、したがって、サーバ３６は、オンデマンドでモバイルデバイス３４にステレオ出力をストリーミングすることができる。計算の負荷を低減するため、サーバ３６は「仮想スピーカ」の追加を省略し（図３の実施形態で提供されるように）、そしてステレオ出力を生成する際に実際の入力トラックのみを使用することができる。あるいは、図４の方法は、後の再生のため、オフラインでステレオオーディオファイルを生成するために使用することができる。

一実施形態では、プロセッサ４０は、所与のサイズ（例えば、それぞれの入力チャネルから６５５３６バイト）のオーディオ入力チャンク１００を受信して、動作させる。プロセッサは、チャンクをバッファ１０２に一時的に保存し、連続したチャンク間の境界における出力の不連続性を避けるために、各チャンクを以前のバッファされたチャンクと一緒に処理する。プロセッサ４０は、各入力チャネルを、チャネルに関連する３次元音源位置に対応する適切な方向性キューを有する左と右のステレオ成分に変換するために、フィルタ１０４を各チャンク１００に適用する。この目的のための適切なフィルタリングアルゴリズムが、図５を参照して以下に説明される。

次に、プロセッサ４０は、左と右のステレオ出力を計算するために、各側（左と右）のフィルタリングされた信号のすべてを加算器１０６に供給する。再生時のクリッピングを回避するために、プロセッサ４０は、例えば以下の式に従って、加算された信号にリミッタ１０８を適用することができる：

ここで、χはリミッタへの入力信号、Ｙは出力である。出力チャンク１１０の結果として得られるストリームは、ステレオヘッドホン２４で再生できる。

図５は、本発明の一実施形態による、フィルタ１０４の詳細を概略的に示すフローチャートである。同様のフィルタは、例えば、時間領域表現９０のステレオ出力９２（図３）へのダウンミキシング、及び仮想軌道に沿って移動する音源からの入力のフィルタリング（図２に示す）に使用できる。オーディオチャンク１００がインターリーブされた形式の複数のチャネルを含む場合（一部のオーディオ規格では一般的である）、プロセッサ４０は、チャネル分離ステップ１１２において入力チャネルを別々のストリームに分割することから始める。

本発明者らは、いくつかの信号フィルタが低周波オーディオ成分の歪みをもたらす一方、リスナーの指向性感覚は１０００Ｈｚを超える高周波数領域のキューに基づくことを見出した。したがって、プロセッサ４０は、周波数分離ステップ１１４において、個々のチャネル（存在する場合、サブウーファチャネルを除く）から低周波数成分を抽出し、低周波数成分を別個の信号セットとしてバッファリングする。

一実施形態では、低周波信号の分離は、クロスオーバフィルタ、例えばカットオフ周波数１００Ｈｚおよびオーダ１６を有するクロスオーバフィルタを使用して達成される。クロスオーバフィルタは、無限インパルス応答（ＩＩＲ）バターワースフィルタで実装することができ、それは次の等式によってデジタル形式で表すことができる伝達関数Ｈを有する：

ここで、ｚは複素変数であり、Ｌはフィルタの長さである。別の実施形態では、クロスオーバフィルタはチェビシェフフィルタとして実装される。

プロセッサ４０は、全ての元の信号の、結果として生じる低周波成分を合計する。結果として得られる低周波信号（本明細書ではＳｕｂ’と呼ぶ）は複製され、後に左と右のステレオチャネルの両方に組み込まれる。これらのステップは、入力の低周波成分の品質を維持するのに役立つ。

次に、プロセッサ４０は、各成分が所望の方向から発出するという錯覚を生成するために、個々のチャネルのそれぞれの高周波成分を、それぞれのチャネル位置に対応するフィルタ応答でフィルタリングする。この目的のために、プロセッサ４０は、方位角フィルタリングステップ１１６において、適切な左と右のＨＲＴＦフィルタを用いて各チャネルをフィルタリングして、水平面内の特定の方位角に信号を割り当て、そして仰角フィルタリングステップ１１８において、ノッチフィルタを用いて信号を特定の仰角に割り当てる。ＨＲＴＦフィルタおよびノッチフィルタは、ここでは概念上および計算上の明瞭さのために別々に記載されているが、代替的に単一の計算操作で適用されてもよい。

ステップ１１６において、ＨＲＴＦフィルタは以下の畳み込みを用いて適用することができる：

ここで、ｙ（ｎ）は処理されたデータ、ｎは離散時間変数、χは処理されるオーディオサンプルのチャンク、ｈは適切なＨＲＴＦフィルタ（左または右）のインパルス応答を表す畳み込みのカーネルである。ステップ１１８で適用されるノッチフィルタは、有限インパルス応答（ＦＩＲ）拘束最小二乗フィルタであってもよく、上記の式に示されるＨＲＴＦフィルタと類似して、同様に畳み込みによって適用されてもよい。多くの例示的なシナリオにおけるＨＲＴＦフィルタおよびノッチフィルタにおいて使用され得るフィルタ係数の詳細な表現は、上記の米国仮特許出願第６２／４００，６９９号（特許文献２）に示されている。

プロセッサ４０は、全てのチャネルに同じ処理条件を適用する必要はないが、バイアスステップ１２０において、リスナーの聴覚経験を向上させるためにバイアスを特定のチャネルに適用することができる。例えば、本発明者らは、チャネルの３次元音源位置が水平面の下にあるように対応するノッチフィルタを調整することによって、特定のチャネルの仰角をバイアスすることがいくつかの場合には有益であることを発見した。別の例として、プロセッサ４０は、サラウンドチャネルの音量を増加させ、それによりヘッドホン２４から来るオーディオのサラウンド効果を増強するために、サラウンドサウンド入力から受信したサラウンドチャネル（ＳＬおよびＳＲ）および／またはリアチャネル（ＲＬおよびＲＲ）の利得をブーストすることができる。別の例として、上記で定義したようなＳｕｂ’チャンネルは、高周波成分に対して減衰されるか、さもなければ制限され得る。本発明者らは、±５ｄＢの範囲のバイアスが良好な結果をもたらすことを見出した。

フィルタおよび任意の所望のバイアスを適用した後、プロセッサ４０は、フィルタ出力ステップ１２２において、左ステレオ成分のすべておよび右ステレオ成分のすべてをＳｕｂ’成分とともに加算器１０６に渡す。その後ステレオ信号の生成とヘッドホン２４への出力は上述のように継続する。

上述の実施形態は例として引用されたものであり、そして本発明は、上記に特に示され記載されたものに限定されないことが理解されよう。むしろ、本発明の範囲は、上述の様々な特徴の組み合わせおよびサブ組み合わせ、ならびに上記の記載を読んだ当業者に想起され得る、従来技術において開示されていない変化形および修正形の両方を含む。

Claims

サウンドを合成する方法であって：
それぞれモノラルオーディオトラックを有する１つまたはそれ以上の第１の入力を受信するステップと；
前記第１の入力に関連する、方位角座標および仰角座標を有するそれぞれの３次元（３Ｄ）音源位置を示す、１つまたは複数の第２の入力を受信するステップと、
前記それぞれの３次元音源位置の前記方位角座標および前記仰角座標に依存するフィルタ応答関数に基づいて、それぞれの左および右のフィルタ応答を前記第１の入力のそれぞれに割り当てるステップと、そして
前記それぞれ左および右のフィルタ応答を前記第１の入力に適用することによって左と右のステレオ出力信号を合成するステップと、
を有することを特徴とするサウンドを合成する方法。
前記１つ以上の第１の入力は複数の第１の入力を有し、そして前記左と右のステレオ出力信号を合成するステップは、各々の前記第１の入力に前記それぞれ左と右のフィルタ応答を適用し、それぞれ左と右のステレオ成分を生成するステップと、前記左と右のステレオ成分を全ての第１の入力にわたって合計するステップと、を有することを特徴とする請求項１に記載の方法。
前記左と右のステレオ成分を合計するステップは、前記出力信号の再生時にクリッピングを防止するために、前記合計された成分にリミッタを適用するステップを有する、ことを特徴とする請求項２に記載の方法。
前記第２の入力のうちの少なくとも１つは、空間での３次元軌道を特定し、そして
前記左と右のフィルタ応答を割り当てるステップは、前記３次元軌道に沿った複数の点のそれぞれにおいて、前記点の方位角座標および仰角座標に応じて前記軌道上で変化するフィルタ応答を特定するステップを有し、
前記左と右のステレオ出力信号を合成するステップは、前記第２の入力の少なくとも１つに関連する前記第１の入力に対し、前記３次元軌道に沿った前記点に対して特定された前記フィルタ応答を順次適用するステップを有する、
ことを特徴とする請求項１に記載の方法。
前記１つ以上の第２の入力を受信するステップは：
前記軌道の開始点および開始時間を受信するステップと；
前記軌道の終了点および終了時間を受信するステップと；そして
前記軌道が前記開始時間から前記終了時間の間に横断されるように、前記開始点と前記終了点との間の前記３次元軌道を自動的に計算するステップと、
を有することを特徴とする請求項４に記載の方法。
前記３次元軌道を自動的に計算するステップは、前記方位座標及び前記仰角座標の原点を中心とする球面上の経路を計算するステップを有する、ことを特徴とする請求項５に記載の方法。
前記フィルタ応答関数が、前記仰角座標の関数として変化する、所与の周波数のノッチを含むことを特徴とする、請求項１〜６のいずれかに記載の方法。
前記１つ以上の第１の入力は第１の複数のオーディオ入力トラックを含み、
前記左と右のステレオ出力信号を合成するステップは：
第２の複数の合成入力を生成するため、前記第１の複数の入力オーディオトラックを空間的にアップサンプリングするステップと、
ここにおいて前記第２の複数の合成入力は、第１の入力に関連するそれぞれの３次元音源位置とは異なるそれぞれの座標を有する合成音源位置を有し；
前記合成された３次元音源位置の方位角座標および仰角座標で計算されたフィルタ応答関数を使用して前記合成入力をフィルタリングするステップと；そして
それぞれの前記左と右のフィルタ応答を用いて前記第１の入力をフィルタリングした後、フィルタリングされた前記合成入力をフィルタリングされた前記第１の入力と加算して前記ステレオ出力信号を生成するステップと；
を有する、ことを特徴とする請求項１〜６のいずれかに記載の方法。
前記第１の複数の入力オーディオトラックを空間的にアップサンプリングするステップは、前記入力オーディオトラックにウェーブレット変換を適用して前記入力オーディオトラックのそれぞれのスペクトログラムを生成するステップと、そして前記３次元音源位置にしたがって前記スペクトログラム間を補間して、前記合成された入力を生成するステップとを有する、ことを特徴とする請求項８に記載の方法。
前記スペクトログラム間を補間するステップは、前記スペクトログラムにおける点の間のオプティカルフロー関数を計算するステップを有する、ことを特徴とする請求項９に記載の方法。
前記左と右のステレオ出力信号を合成するステップは、前記第１の入力から低周波成分を抽出するステップを有し、前記それぞれの左および右のフィルタ応答を適用するステップは、前記低周波成分抽出後の前記第１の入力をフィルタリングするステップと、そしてその後前記フィルタリングされた第１の入力に前記抽出された低周波成分を加算するステップとを有する、ことを特徴とする請求項１〜６のいずれかに記載の方法。
前記３次元音源位置は、前記第１の入力に関連するレンジ座標を有し、前記左と右のステレオ出力を合成するステップは、前記関連するレンジ座標に応じて前記第１の入力をさらに修正するステップを有する、ことを特徴とする請求項１〜６のいずれかに記載の方法。
サウンドを合成する装置であって：
それぞれモノラルオーディオトラックを有する１つまたはそれ以上の第１の入力を受信し、そして前記第１の入力に関連する、方位角座標および仰角座標を有するそれぞれの３次元（３Ｄ）音源位置を示す、１つまたは複数の第２の入力を受信するように構成される、入力インタフェースと；
前記それぞれの３次元音源位置の前記方位角座標および前記仰角座標に依存するフィルタ応答関数に基づいて、それぞれ左と右のフィルタ応答をそれぞれの前記第１の入力に割り当て、そして前記それぞれの左および右のフィルタ応答を前記第１の入力に適用することによって左と右のステレオ出力信号を合成する、ように構成される、プロセッサと；
を有することを特徴とするサウンドを合成する装置。
前記左と右のステレオ出力信号をそれぞれ再生するように構成される、左スピーカおよび右スピーカを有するオーディオ出力インタフェースを備える、ことを特徴とする請求項１３に記載の装置。
前記１つまたはそれ以上の第１の入力は複数の第１の入力を有し、前記プロセッサは、それぞれの前記第１の入力に前記それぞれの左および右のフィルタ応答を適用して、それぞれの左および右ステレオ成分を生成し、そして前記第１の入力のすべてにわたって前記左と右のステレオ成分を合計する、ように構成される、ことを特徴とする請求項１３に記載の装置。
前記プロセッサは、前記出力信号の再生時のクリッピングを防止するため、前記合計された成分にリミッタを適用するように構成される、ことを特徴とする請求項１５に記載の装置。
前記第２の入力のうちの少なくとも１つは、空間内の３次元軌道を特定し、そして
前記プロセッサは、前記３次元軌道に沿った複数の点のそれぞれにおいて、前記点の方位角座標および仰角座標に応じて前記軌道上で変化するフィルタ応答を特定し、そして少なくとも１つの前記第２の入力に関連する前記第１の入力に、前記３次元軌道に沿った前記点に対して特定された前記フィルタ応答を順次適用するように構成される、ことを特徴とする請求項１３に記載の装置。
前記プロセッサは、前記軌道の開始点と開始時間と前記軌道の終了点と終了時間を受信し、そして前記開始点と前記終了点との間の前記３次元軌道を自動的に計算し、それにより前記軌道は開始時間から終了時間まで横断される、ことを特徴とする請求項１７に記載の装置。
前記３次元軌道は、方位角座標および仰角座標の原点を中心とする球面上の経路を有する、ことを特徴とする請求項１８に記載の装置。
前記フィルタ応答関数は、前記仰角座標の関数として変化する、所与の周波数におけるノッチを有する、ことを特徴とする請求項１３〜１９のいずれかに記載の装置。
前記１つまたはそれ以上の第１の入力は、第１の複数のオーディオ入力トラックを有し、そして前記プロセッサは、前記第１の入力に関連するそれぞれの３次元音源位置とは異なるそれぞれの座標を有する合成３次元音源位置を有する、第２の複数の合成入力を生成するため前記第１の複数の入力オーディオトラックを空間的にアップサンプリングし、前記合成された３次元音源の方位角座標および仰角座標で計算されたフィルタ応答関数を使用して前記合成入力をフィルタリングし、そしてフィルタリングされた前記合成入力をフィルタリングされた前記第１の入力と合計してステレオ出力信号を生成する、ように構成される、ことを特徴とする請求項１３〜１９のいずれかに記載の装置。
前記プロセッサは、前記入力オーディオトラックにウェーブレット変換を適用して前記入力オーディオトラックのそれぞれのスペクトログラムを生成し、そして前記３次元音源位置にしたがって前記スペクトログラム間を補間して前記合成入力を生成することにより、前記第１の複数の前記入力オーディオトラックを空間的にアップサンプリングするように構成される、ことを特徴とする請求項２１に記載の装置。
前記プロセッサは、前記スペクトログラム内の点の間で計算されたオプティカルフロー関数を使用して前記スペクトログラム間を補間するように構成される、ことを特徴とする請求項２２に記載の装置。
前記プロセッサは、前記第１の入力から低周波成分を抽出し、前記低周波成分の抽出後に前記第１の入力に前記それぞれの左と右のフィルタ応答を適用し、そしてその後前記抽出された低周波成分をフィルタリングされた前記第１の入力に加える、ように構成されることを特徴とする、請求項１３〜１９のいずれかに記載の装置。
前記３次元音源位置は、前記第１の入力に関連するレンジ座標を有し、前記プロセッサは、前記関連するレンジ座標に応答して前記第１の入力をさらに修正するように構成される、ことを特徴とする請求項１３〜１９のいずれかに記載の装置。
コンピュータソフトウェアからなる製品であって、プログラム命令が格納される非一過性のコンピュータ可読媒体を有し、
前記プログラム命令はコンピュータによって読み取られると、前記コンピュータに対し：それぞれモノラルオーディオトラックを有する１つまたはそれ以上の第１の入力を受信させ、そして前記第１の入力に関連する、方位角座標および仰角座標を有するそれぞれの３次元（３Ｄ）音源位置を示す、１つまたは複数の第２の入力を受信させ、
ここにおいて前記命令は前記コンピュータに対し：前記それぞれの３次元音源位置の前記方位角座標および仰角座標に依存するフィルタ応答関数に基づいて、それぞれ左と右のフィルタ応答を前記第１の入力のそれぞれに割り当てさせ、そして前記それぞれの左と右のフィルタ応答を前記第１の入力に適用することによって左と右のステレオ出力信号を合成させる、
ことを特徴とするコンピュータソフトウェアからなる製品。
前記１つまたはそれ以上の第１の入力は複数の第１の入力を有し、そして前記命令は前記コンピュータに対し、前記第１の入力のそれぞれに前記左と右のフィルタ応答を適用して、それぞれ左と右のステレオ成分を生成し、そして前記第１の入力の全てにわたって前記左と右のステレオ成分を合計するようにさせる、ことを特徴とする請求項２６に記載の製品。
前記命令は前記コンピュータに対し、前記出力信号の再生時のクリッピングを防止するために、前記合計された成分にリミッタを適用するようにさせる、ことを特徴とする請求項２７に記載の製品。
前記第２の入力のうちの少なくとも１つが空間における３次元軌道を特定し、そして前記命令は前記コンピュータに対し：
前記３次元軌道に沿った複数の点のそれぞれにおいて、前記点の方位角座標および仰角座標に応じて前記軌道上で変化するフィルタ応答を特定し、そして
前記第２の入力の少なくとも１つに関連する前記第１の入力に対し、前記３次元軌道に沿った前記点に対して特定された前記フィルタ応答を順次適用する、
ようにさせる、ことを特徴とする請求項２６に記載の製品。
前記命令は前記コンピュータに対し、前記軌道の開始点と開始時間、および前記軌道の終了点および終了時間を受信し、そして前記軌道の前記開始点と前記終了点との間の３次元軌道を自動的に計算し、それにより前記軌道が開始時間から終了時間まで横断される、ようにさせる、ことを特徴とする請求項２９に記載の製品。
前記３次元軌道は、前記方位角座標および前記仰角座標の原点を中心とする球面上の経路を有する、ことを特徴とする請求項３０に記載の製品。
前記フィルタ応答関数は、前記仰角座標の関数として変化する、所与の周波数におけるノッチを有する、ことを特徴とする請求項２６〜３１のいずれかに記載の製品。
前記１つ以上の第１の入力は第１の複数のオーディオ入力トラックを含み、そして前記命令は前記コンピュータに対し：
第２の複数の合成入力を生成するため、前記第１の複数の入力オーディオトラックを空間的にアップサンプリングするステップと、ここにおいて前記第２の複数の合成入力は、第１の入力に関連するそれぞれの３次元音源位置とは異なる、それぞれの座標を有する合成された３次元音源位置を有し；
前記合成された３次元音源位置の方位角座標および仰角座標で計算されたフィルタ応答関数を使用して前記合成入力をフィルタリングするステップと；そして
それぞれの前記左と右のフィルタ応答を用いて前記第１の入力をフィルタリングした後、フィルタリングされた前記合成入力をフィルタリングされた前記第１の入力と加算して前記ステレオ出力信号を生成するステップと；
を実行するようにさせる、ことを特徴とする請求項２６〜３１のいずれかに記載の製品。
前記命令は、前記コンピュータに対し、前記入力オーディオトラックにウェーブレット変換を適用して前記入力オーディオトラックのそれぞれのスペクトログラムを生成するステップと、そして前記３次元音源位置にしたがって前記スペクトログラム間を補間して、前記合成された入力を生成するステップとを実行することにより、前記第１の複数の入力オーディオトラックを空間的にアップサンプリングさせる、ことを特徴とする請求項３３に記載の製品。
前記命令は、前記コンピュータに対し、前記スペクトログラム内の点の間で計算されたオプティカルフロー関数を使用して、前記スペクトログラム間で補間を行わせる、ことを特徴とする請求項３４に記載の製品。
前記命令は、前記コンピュータに対し、前記第１の入力から低周波数成分を抽出するステップと、前記低周波数成分の抽出後に前記第１の入力に前記それぞれの左と右のフィルタ応答を適用するステップと、そしてその後前記抽出された低周波成分をフィルタリングされた前記第１の入力に加えるステップと、を実行させる、ことを特徴とする請求項２６〜３１のいずれかに記載の製品。
前記３次元音源位置は、前記第１の入力に関連するレンジ座標を有し、前記命令は、前記コンピュータに対し、前記関連するレンジ座標に応じて前記第１の入力をさらに修正させる、ことを特徴とする請求項２６〜３１のいずれかに記載の製品。