JP2016523464A

JP2016523464A - バイノーラル室内インパルス応答を用いたフィルタリング

Info

Publication number: JP2016523464A
Application number: JP2016516795A
Authority: JP
Inventors: シャン、ペイ; セン、ディパンジャン; ピーターズ、ニルス・ガンザー; モッレル、マーティン・ジェームス
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2013-05-29
Filing date: 2014-05-28
Publication date: 2016-08-08
Anticipated expiration: 2034-05-28
Also published as: EP3005734B1; EP3005734A1; US9674632B2; EP3005735A1; KR20160015265A; KR20160015268A; US20140355794A1; CN105340298B; TW201509201A; CN105432097A; KR101788954B1; CN105432097B; JP2016523465A; KR101719094B1; EP3005733A1; TWI615042B; US9420393B2; EP3005733B1; US20140355795A1; CN105340298A

Abstract

１つまたは複数のプロセッサを備えるデバイスは、複数のバイノーラル室内インパルス応答フィルタの各々に関する複数のセグメントを決定し、ここにおいて、複数の両耳室内バイノーラル室内インパルス応答フィルタの各々が、前記残余室内応答セグメントと、フィルタ応答が音場内の位置に依存する少なくとも１つの方向依存性セグメントとを備え、複数の変換されたバイノーラル室内インパルス応答フィルタを生成するために、複数のバイノーラル室内インパルス応答フィルタのうちの少なくとも１つの方向依存性セグメントの各々を、複数の階層要素の領域に対応する領域に変換し、ここにおいて、複数の階層要素は音場を記述し、音場をレンダリングするために、複数の変換されたバイノーラル室内インパルス応答フィルタと複数の階層要素との高速畳み込みを実施する、ように構成される。

Description

優先権主張
[0001]本出願は、２０１３年５月２９日に出願された米国仮特許出願第６１／８２８，６２０号、２０１３年７月１７日に出願された米国仮特許出願第６１／８４７，５４３号、２０１３年１０月３日に出願された米国仮出願第６１／８８６，５９３号、および２０１３年１０月３日に出願された米国仮出願第６１／８８６，６２０号の利益を主張する。

[0002]本開示は、音声レンダリングに関し、より詳細には、音声データのバイノーラルレンダリング（binaural rendering）に関する。

[0003]概して、音声ストリームの源をたどるために、バイノーラル室内インパルス応答（binaural room impulse response）（ＢＲＩＲ）フィルタの適用によるバイノーラル音声レンダリングに関する技法を説明する。

[0004]一例として、バイノーラル音声レンダリング（binaural audio rendering）の方法は、複数のバイノーラル室内インパルス応答フィルタの各々に関する複数のセグメント（segment）を決定することと、ここにおいて、複数のバイノーラル室内インパルス応答フィルタの各々は、残余室内応答セグメントと、フィルタ応答が音場内の位置に依存する少なくとも１つの方向依存性セグメントとを備える、と、複数の変換されたバイノーラル室内インパルス応答フィルタを生成するために、複数のバイノーラル室内インパルス応答フィルタのうちの少なくとも１つの方向依存性セグメントの各々を、複数の階層要素の領域に対応する領域に変換すること、ここにおいて、複数の階層要素は音場を記述する、と、音場をレンダリングするために、複数の変換されたバイノーラル室内インパルス応答フィルタと複数の階層要素との高速畳み込みを実施することと、を備える。

[0005]別の例では、デバイスは、複数のバイノーラル室内インパルス応答フィルタの各々に関する複数のセグメントを決定すること、ここにおいて、複数のバイノーラル室内インパルス応答フィルタの各々は、残余室内応答セグメントと、フィルタ応答が音場内の位置に依存する少なくとも１つの方向依存性セグメントとを備える、と、複数の変換されたバイノーラル室内インパルス応答フィルタを生成するために、複数のバイノーラル室内インパルス応答フィルタのうちの少なくとも１つの方向依存性セグメントの各々を、複数の階層要素の領域に対応する領域に変換すること、ここにおいて、複数の階層要素は音場を記述する、と、音場をレンダリングするために、複数の変換されたバイノーラル室内インパルス応答フィルタと複数の階層要素との高速畳み込みを実施することと、を行うように構成された１つまたは複数のプロセッサを備える。

[0006]別の例では、装置は、複数のバイノーラル室内インパルス応答フィルタの各々に関する複数のセグメントを決定するための手段、ここにおいて、複数のバイノーラル室内インパルス応答フィルタの各々は、残余室内応答セグメントと、フィルタ応答が音場内の位置に依存する少なくとも１つの方向依存性セグメントとを備える；複数の変換されたバイノーラル室内インパルス応答フィルタを生成するために、複数のバイノーラル室内インパルス応答フィルタのうちの少なくとも１つの方向依存性セグメントの各々を、音場を記述する複数の階層要素の領域に対応する領域に変換するための手段と；音場をレンダリングするために、複数の変換されたバイノーラル室内インパルス応答フィルタと複数の階層要素との高速畳み込みを実施するための手段と、を備える。

[0007]別の例では、非一時的コンピュータ可読記憶媒体は、実行されると、１つまたは複数のプロセッサに、複数のバイノーラル室内インパルス応答フィルタの各々に関する複数のセグメントを決定すること、ここにおいて、複数のバイノーラル室内インパルス応答フィルタの各々は、残余室内応答セグメントと、フィルタ応答が音場内の位置に依存する少なくとも１つの方向依存性セグメントとを備える、と、複数の変換されたバイノーラル室内インパルス応答フィルタを生成するために、複数のバイノーラル室内インパルス応答フィルタのうちの少なくとも１つの方向依存性セグメントの各々を、複数の階層要素の領域に対応する領域に変換すること、ここにおいて、複数の階層要素は音場を記述する、と、音場をレンダリングするために、複数の変換されたバイノーラル室内インパルス応答フィルタと複数の階層要素との高速畳み込みを実施することと、を行わせる命令をその上に記憶している。

[0008]技法の１つまたは複数の態様の詳細は、添付の図面および以下の説明に記載される。これらの技法の他の特徴、目的、および利点は、説明および図面から、ならびに特許請求の範囲から、明らかになろう。

[0009]様々な次数および副次数の球面調和基底関数を示す図。様々な次数および副次数の球面調和基底関数を示す図。 [0010]音声信号情報をより効率的にレンダリングするために本開示で説明する技法を実行し得るシステムを示す図。 [0011]例示的なバイノーラル室内インパルス応答（ＢＲＩＲ）を示すブロック図。 [0012]室内でＢＲＩＲを作成するための例示的なシステムモデルを示すブロック図。 [0013]室内でＢＲＩＲを作成するためのより詳細なシステムモデルを示すブロック図。 [0014]本開示で説明するバイノーラル音声レンダリング技法の様々な態様を実施し得る音声再生デバイスの一例を示すブロック図。 [0015]本開示で説明するバイノーラル音声レンダリング技法の様々な態様を実施し得る音声再生デバイスの一例を示すブロック図。 [0016]本開示で説明する技法の様々な態様による、球面調和係数をレンダリングするための、バイノーラルレンダリングデバイスに関する例示的な演算のモードを示すフロー図。 [0017]本開示で説明する技法の様々な態様による、図７および図８の音声再生デバイスによって実施され得る代替の演算のモードを示すフロー図。本開示で説明する技法の様々な態様による、図７および図８の音声再生デバイスによって実施され得る代替の演算のモードを示すフロー図。 [0018]本開示で説明するバイノーラル音声レンダリング技法の様々な態様を実施し得る音声再生デバイスの一例を示すブロック図。 [0019]本開示で説明する技法の様々な態様による、図１１の音声再生デバイスによって実施され得るプロセスを示すフロー図。

[0020]同様の参照符号は、図面およびテキスト全体を通して同じ要素を示す。

[0021]サラウンドサウンドの発展は、現今では娯楽のための多くの出力フォーマットを利用可能にしている。そのようなサラウンドサウンドフォーマットの例は、一般的な５．１フォーマット（これは、フロントレフト（ＦＬ）と、フロントライト（ＦＲ）と、センターまたはフロントセンターと、バックレフトまたはサラウンドレフトと、バックライトまたはサラウンドライトと、低周波効果（ＬＦＥ）という、６つのチャンネルを含む）、発展中の７．１フォーマット、および今後来る２２．２フォーマット（たとえば、超高精細テレビ規格で使用するための）を含む。空間音声フォーマットの別の例は、球面調和係数（高次アンビソニックス（Higher Order Ambisonics）としても知られている）である。

[0022]将来規格化される音声エンコーダ（ＰＣＭ音声表現をビットストリームに変換するデバイス−時間サンプルごとに必要なビット数を保存する）への入力は、随意に、３つの可能なフォーマット、（ｉ）あらかじめ指定された位置でラウドスピーカーによって再生されることを意味する、従来のチャンネルベース音声、（ｉｉ）（様々な情報の中でも）位置座標を含む関連付けられたメタデータを有する単一音声オブジェクトのための離散的なパルス符号変調（ＰＣＭ）データを含むオブジェクトベース音声、および（ｉｉｉ）球面調和係数（ＳＨＣ）を使用して音場を表すことを含むシーンベース音声−ここで、係数は球面調和基底関数の線形和の「重み」を表す、のうちの１つとすることができる。この文脈では、ＳＨＣは、高次アンビソニックス（ＨｏＡ）モデルによるＨｏＡ信号を含み得る。球面調和係数は、代替または追加として、平面モデルと球面モデルとを含み得る。

[0023]市場には様々な「サラウンドサウンド」フォーマットがある。これらのフォーマットは、たとえば、５．１ホームシアターシステム（リビングルームへの進出を行うという点でステレオ以上に最も成功した）からＮＨＫ（ＮｉｐｐｏｎＨｏｓｏＫｙｏｋａｉすなわち日本放送協会）によって開発された２２．２システムに及ぶ。コンテンツ作成者（たとえば、ハリウッドスタジオ）は、一度に映画のサウンドトラックを作成することを望み、各々のスピーカー構成のためにサウンドトラックをリミックスする努力を行うことを望まない。最近では、標準化委員会が、標準化されたビットストリームへの符号化と、スピーカーの幾何学的配置およびレンダラの位置における音響条件に適合可能でありそれらに依存しない後続の復号とを提供するための方法を考えている。

[0024]コンテンツ作成者にそのようなフレキシビリティを提供するために、要素の階層的なセットが音場を表すために使用され得る。要素の階層的なセットは、より低次の要素の基本セットがモデル化された音場の完全な表現を提供するように要素が順序付けられている、要素のセットを指し得る。このセットはより高次の要素を含むように拡張されるので、表現はより詳細なものになる。

[0025]要素の階層的なセットの一例は、球面調和係数（ＳＨＣ）のセットである。次の式は、ＳＨＣを使用した音場の記述または表現を示す。

この式は、任意の点｛ｒ_r，θ_r，φ_r｝（これは、この例において音場を取り込むマイクロフォンに対する球面座標で表される）における音場の圧力ｐ_iが、

によって一意に表され得ることを示す。ここで、

、ｃは音の速さ（約３４３ｍ／ｓ）であり、｛ｒ_r，θ_r，φ_r｝は基準の点（または観測点）であり、ｊｎ（・）は次数ｎの球ベッセル関数であり、および

は次数ｎおよび副次数ｍの球面調和基底関数である。角括弧内の項は、離散フーリエ変換（ＤＦＴ）、離散コサイン変換（ＤＣＴ）、またはウェーブレット変換などの様々な時間周波数変換によって近似され得る信号の周波数領域表現（すなわち、Ｓ（ω，ｒ_r，θ_r，φ_r）である）ことが認識できよう。階層的なセットの他の例は、ウェーブレット変換の係数のセットと、多重解像度の基底関数の係数の他のセットとを含む。

[0026]図１は、ゼロ次（ｎ＝０）から４次（ｎ＝４）までの球面調和基底関数を示す図である。理解できるように、各次数に対して、説明を簡単にするために図示されているが図１の例では明示的に示されていない副次数ｍの拡張が存在する。

[0027]図２は、ゼロ次（ｎ＝０）から第４次（ｎ＝４）までの球面調和基底関数を示す別の図である。図２では、球面調和ベースの関数は、示される次数と副次数の両方を伴う３次元座標空間において示される。

[0028]いずれにしても、

は、様々なマイクロフォンアレイ構成によって物理的に取得（たとえば、記録）されることが可能であり、または代替的に、音場のチャンネルベースの記述もしくはオブジェクトベースの記述から導出されることが可能である。ＳＨＣは、シーンに基づく音声を表す。たとえば、４次のＳＨＣの表現は、時間サンプルごとに（１＋４）²＝２５個の係数を伴う。

[0029]これらのＳＨＣがどのようにオブジェクトベースの記述から導出され得るかを例示するために、次の式を考える。個々の音声オブジェクトに対応する音場に関する係数

は、

として表され得、ここで、ｉは

であり、ｈ_n ⁽²⁾（・）は次数ｎの（第２の種類の）球ハンケル関数であり、｛ｒ_s，θ_s，φ_s｝はオブジェクトの位置である。周波数の関数としての音源のエネルギーｇ（ω）を知ること（たとえば、ＰＣＭストリームに高速フーリエ変換を行うなどの、時間・周波数解析技法を使用して）は、我々が各ＰＣＭオブジェクトとその位置とを

に変換することを可能にする。さらに、各オブジェクトに関する

係数は、（上式は線形であり直交方向の分解であるので）加法的であることが示され得る。このようにして、多数のＰＣＭオブジェクトが

係数によって（たとえば、個々のオブジェクトに関する係数ベクトルの和として）表され得る。本質的に、これらの係数は、音場に関する情報（３Ｄ座標の関数としての圧力）を含んでおり、上記は、観測点｛ｒ_r，θ_r，φ_r｝の近傍における、音場全体の表現への個々のオブジェクトからの変換を表す。

[0030]ＳＨＣはまた、マイクロフォンアレイの記録から次のように導出され得る。

ただし、

は

（ＳＨＣ）の時間領域の等価物であり、＊は畳み込み演算を表し、＜，＞は内積を表し、ｂ_n（ｒ_i，ｔ）はｒ_iに依存する時間領域のフィルタ関数を表し、ｍ_i（ｔ）はｉ番目のマイクロフォンの信号であり、ｉ番目のマイクロフォントランスデューサ（microphone transducer）は、半径ｒ_i、仰角θ_i、および方位角φ_iに位置する。したがって、マイクロフォンアレイの中に３２個のトランスデューサがあり、各マイクロフォンが、ｒ_i＝ａが定数となるように球面上に配置される（ｍｈＡｃｏｕｓｔｉｃｓのＥｉｇｅｎｍｉｋｅＥＭ３２デバイス上のマイクロフォンのように）場合、２５個のＳＨＣが、行列演算を使用して次のように導出され得る。

上記の式中の行列は、より一般的にはＥ_s（θ，φ）と呼ばれることがあり、ここで、下付き文字ｓは、この行列がある特定の変換器幾何学的配置セットｓに関することを示すことができる。上記の式中の畳み込み（＊によって示される）は、行と行に基づき、したがって、たとえば、出力

はｂ₀（ａ，ｔ）と、Ｅ_s（θ，φ）行列の第１の行とマイクロフォン信号の列（これは時間の関数として変化する−ベクトル乗算の結果が時系列であるという事実の理由である）とのベクトル乗算から生じる時系列と、の間の畳み込みの結果である。算出は、マイクロフォンアレイの変換器位置が、いわゆるＴ字形設計幾何学的配置（Ｅｉｇｅｎｍｉｋｅ変換器幾何学的配置に極めて近い）にあるとき、最も正確であり得る。Ｔ字形設計幾何学的配置の１つの特徴は、幾何学的配置から生じるＥ_s（θ，φ）行列は行儀の非常によい（very well behaved）逆行列（または擬似逆行列）を有すること、さらに、この逆行列は行列Ｅ_s（θ，φ）の転置によって極めてよく近似され得ることが多いことであり得る。仮にｂ_n（ａ，ｔ）を用いたフィルタリング動作が無視される場合、この性質は、ＳＨＣからのマイクロフォン信号の復元（すなわち、この例では、［ｍ_i（ｔ）］＝［Ｅ_s（θ，φ）］^-1［ＳＨＣ］）を可能にする。残りの数字は、以下でオブジェクトベース音声コーディングおよびＳＨＣベース音声コーディングの文脈で説明される。

[0031]図３は、音声信号情報をより効率的にレンダリングするために本開示で説明する技法を実行し得るシステム２０を示す図である。図３の例に示すように、システム２０は、コンテンツ作成者２２と、コンテンツ消費者２４とを含む。コンテンツ作成者２２およびコンテンツ消費者２４の文脈で説明するが、本技法は、音場の階層的表示を規定するＳＨＣまたは任意の他の階層要素を利用する任意の文脈において実施され得る。

[0032]コンテンツ作成者２２は、コンテンツ消費者２４などのコンテンツ消費者による消費のためのマルチチャンネル音声コンテンツを生成し得る映画撮影所または他のエンティティを表すことができる。多くの場合、このコンテンツ作成者は、ビデオコンテンツとともに、音声コンテンツを生成する。コンテンツ消費者２４は、音声再生システムを所有するまたはそれにアクセスできる個人を表し得、その音声再生システムはマルチチャンネル音声コンテンツを再生する能力がある音声再生システムの任意の形を指し得る。図３の例では、コンテンツ消費者２４は、音場の階層的表示を規定する階層要素をレンダリングするための音声再生システム３２を所有するかまたはそれへのアクセスを有する。

[0033]コンテンツ作成者２２は、音声レンダラ２８と音声編集システム３０とを含む。音声レンダラ２８は、スピーカーフィード（「ラウドスピーカーフィード」、「スピーカー信号」、または「ラウドスピーカー信号」と呼ばれることもある）をレンダリングするかまたはさもなければ生成する音声処理ユニットを表し得る。各スピーカーフィードは、マルチチャンネル音声システムの特定のチャンネルに対する音を再生するスピーカーフィード、またはスピーカー位置に適合する頭部伝達関数（ＨＲＴＦ）フィルタとの畳み込みについて意図される仮想ラウドスピーカーフィードに対応することができる。各スピーカーフィードは、球面調和係数のチャンネル（ここで、チャンネルは、球面調和係数が対応する関連付けられた球面基底関数の次数および／または副次数によって示され得る）に対応し得、指向性音場を表すためにＳＨＣの多数のチャンネルを使用する。

[0034]図３の例では、音声レンダラ２８は、従来の５．１、７．１、または２２．２のサラウンドサウンドフォーマットのためのスピーカーフィードをレンダリングし、５．１、７．１、または２２．２のサラウンドサウンドスピーカーシステムにおいて、５個、７個、または２２個のスピーカーの各々に関するスピーカーフィードを生成することができる。代替的に、音声レンダラ２８は、上記で検討した音源の球面調和係数の性質が与えられれば、任意の数のスピーカーを有する任意のスピーカー構成のための音源の球面調和係数からスピーカーフィードをレンダリングするように構成され得る。音声レンダラ２８は、このようにして、図３ではスピーカーフィード２９と示されているいくつかのスピーカーフィードを生成し得る。

[0035]コンテンツ作成者は、編集プロセス中に、球面調和係数２７（「ＳＨＣ２７」）をレンダリングし、高い忠実度を持たないまたは説得力のあるサラウンドサウンド経験を提供しない音場の様相を識別する試みにおけるレンダリングされたスピーカーフィードをリッスンすることができる。次いで、コンテンツ作成者２２は、（多くの場合、上記の様式で音源の球面調和係数が導出され得る異なるオブジェクトの操作を通じて、間接的に）音源の球面調和係数を編集することができる。コンテンツ作成者２２は、球面調和係数２７を編集するために音声編集システム３０を用いることができる。音声編集システム３０は、音声データを編集し、この音声データを１つまたは複数の音源の球面調和係数として出力することが可能な任意のシステムを表す。

[0036]編集プロセスが完了すると、コンテンツ作成者２２は、球面調和係数２７に基づいてビットストリーム３１を生成することができる。すなわち、コンテンツ作成者２２は、ビットストリーム生成デバイス３６を含み、それは、ビットストリーム３１を生成する能力がある任意のデバイスを表し得る。場合によっては、ビットストリーム生成デバイス３６は、球面調和係数２７を帯域幅圧縮し（一例として、エントロピー符号化を通じて）、ビットストリーム３１を形成するために認められたフォーマットで球面調和係数２７のエントロピー符号化バージョンを配置するエンコーダを表し得る。他の例では、ビットストリーム生成デバイス３６は、一例としてマルチチャンネル音声コンテンツまたはその派生物を圧縮するために従来の音声サラウンドサウンド符号化プロセスのプロセスに類似したプロセスを使用してマルチチャンネル音声コンテンツ２９を符号化する音声エンコーダ（おそらく、ＭＰＥＧサラウンドなどの知られている音声コーディング規格またはその派生物に適合する音声エンコーダ）を表すことができる。圧縮されたマルチチャンネル音声コンテンツ２９は次いで、コンテンツ２９を帯域幅圧縮するためにエントロピー符号化されまたはある他の方法でコーディングされ、ビットストリーム３１を形成するために合意したフォーマットに従って配置されてもよい。ビットストリーム３１を形成するために直接圧縮されようと、レンダリングされ、次いでビットストリーム３１を形成するために圧縮されようと、コンテンツ作成者２２は、コンテンツ消費者２４にビットストリーム３１を送信することができる。

[0037]図３ではコンテンツ消費者２４に直接送信されるとして示されるが、コンテンツ作成者２２は、コンテンツ作成者２２とコンテンツ消費者２４との間に位置付けられる中間デバイスにビットストリーム３１を出力し得る。この中間デバイスは、このビットストリームを要求し得るコンテンツ消費者２４への後の配送のためにビットストリーム３１を記憶し得る。中間デバイスは、ファイルサーバ、ウェブサーバ、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、モバイルフォン、スマートフォン、または音声デコーダによる後の取出しのためにビットストリーム３１を記憶する能力がある任意の他のデバイスを備え得る。この中間デバイスは、ビットストリーム３１を要求するコンテンツ消費者２４などの加入者にビットストリーム３１を（おそらくは対応するビデオデータビットストリームを送信するとともに）ストリーミングすることが可能なコンテンツ配信ネットワークに存在し得る。代替的に、コンテンツ作成者２２は、コンパクトディスク、デジタルビデオディスク、高精細度ビデオディスク、または他の記憶媒体などの記憶媒体にビットストリーム３１を格納することができ、記憶媒体の大部分はコンピュータによって読み取り可能であり、したがって、コンピュータ可読記憶媒体または非一時的コンピュータ可読記憶媒体と呼ばれ得る。この文脈において、送信チャンネルは、これらの媒体に格納されたコンテンツが送信されるチャンネルを指し得る（および、小売店と他の店舗ベースの配信機構とを含み得る）。したがって、いずれにしても、本開示の技法は、この点に関して図３の例に限定されるべきではない。

[0038]図３の例にさらに示すように、コンテンツ消費者２４は、音声再生システム３２を所有するかまたはそれへのアクセスを有する。音声再生システム３２は、マルチチャンネル音声データを再生することが可能な任意の音声再生システムを表すことができる。音声再生システム３２は、バイノーラルスピーカーフィード３５Ａ〜３５Ｂ（総称して「スピーカーフィード３５」）としての出力に関するＳＨＣ２７’をレンダリングするバイノーラル音声レンダラ３４を含む。バイノーラル音声レンダラ３４は、ベクトルベース振幅パニング（ＶＢＡＰ：vector-base amplitude panning）を実施する様々な方法のうちの１つまたは複数、および／または音場合成を実施する様々な方法のうちの１つまたは複数など、異なる形態のレンダリングを提供し得る。

[0039]音声再生システム３２は、抽出デバイス３８をさらに含むことができる。抽出デバイス３８は、一般にビットストリーム生成デバイス３６のプロセスに相反し得るプロセスによって球面調和係数２７’（球面調和係数２７の修正された形態または複製物を表すことができる「ＳＨＣ２７’」）を抽出することが可能な任意のデバイスを表すことができる。いずれにしても、音声再生システム３２は、球面調和係数２７’を受信し、球面調和係数２７’をレンダリングするためにバイノーラル音声レンダラ３４を使用し、それによって（音声再生システム３２に電気的にまたはおそらくワイヤレスに結合されるラウドスピーカーの数に対応する、このことは例示を容易にするために図３の例には示さない）スピーカーフィード３５を生成し得る。スピーカーフィード３５の数は２であり得、音声再生システムは、２つの対応するラウドスピーカーを含む一対のヘッドフォンにワイヤレスに結合し得る。しかしながら、様々な例では、バイノーラル音声レンダラ３４は、図３に関して図示され、最初に説明されたものより多数または少数のスピーカーフィードを出力することがある。

[0040]インパルス位置において生成されたインパルスに関する位置における応答をそれぞれ表す音声再生システムのバイナリ室内インパルス応答（ＢＲＩＲ）フィルタ３７。ＢＲＩＲフィルタ３７は、それらがそれぞれ、その位置において人間の耳によって経験されるであろうインパルス応答を表すように生成されるという点において「バイノーラル」である。したがって、インパルスに関するＢＲＩＲフィルタは、対のうちの１つの要素が左耳用であり別の要素が右耳用である、対を成すサウンドレンダリングのために生成され、使用されることが多い。図示の例では、バイノーラル音声レンダラ３４は、それぞれのバイノーラル音声出力３５Ａおよび３５Ｂをレンダリングするために、左ＢＲＩＲフィルタ３３Ａと右ＢＲＩＲフィルタ３３Ｂとを使用する。

[0041]たとえば、ＢＲＩＲフィルタ３７は、音源信号と、インパルス応答（ＩＲ）として測定された頭部伝達関数（ＨＲＴＦ）とを畳み込むことによって生成され得る。ＢＲＩＲフィルタ３７の各々に対応するインパルス位置は、仮想空間中の仮想ラウドスピーカーの位置を表し得る。いくつかの例では、バイノーラル音声レンダラ３４は、ＳＨＣ２７’と、仮想ラウドスピーカーに対応するＢＲＩＲフィルタ３７とを畳み込み、次いで、スピーカーフィード３５としての出力に対してＳＨＣ２７’によって規定される音場をレンダリングするために、得られる畳み込みを集積する（すなわち、合計する）。本明細書で説明するように、バイノーラル音声レンダラ３４は、スピーカーフィード３５としてＳＨＣ２７’をレンダリングしながら、ＢＲＩＲフィルタ３７を操作することによってレンダリング計算を削減するための技法を適用し得る。

[0042]いくつかの例では、本技法は、ＢＲＩＲフィルタ３７を、室内の一位置における一インパルス応答の異なる段階を表すいくつかのセグメントにセグメント化することを含む。これらのセグメントは、音場の任意の点における圧力（または圧力の欠如）を生成する異なる物理現象に対応する。たとえば、ＢＲＩＲフィルタ３７の各々はインパルスと同時に計時されるので、第１のセグメントまたは「初期」セグメントは、インパルスの位置からの圧力波がインパルス応答が測定される位置に到達するまでの時間を表し得る。タイミング情報を別として、それぞれの初期セグメントに関するＢＲＩＲフィルタ３７の値は重要ではなく、音場を記述する階層要素との畳み込みから除外されてよい。同様に、ＢＲＩＲフィルタ３７の各々は、たとえば、人間の聴覚のダイナミックレンジより低く減衰された、または指定されたしきい値より低く減衰されたインパルス応答信号を含む最終または「末尾」セグメントを含み得る。それぞれの末尾セグメントに関するＢＲＩＲフィルタ３７の値もまた重要ではなく、音場を記述する階層要素との畳み込みから除外されてよい。いくつかの例では、本技法は、指定されたしきい値を用いてシュレーダの後方積分（Schroeder backward integration）を実施すること、および後方積分が指定されたしきい値を超える場合に末尾セグメントから要素を除くことによって末尾セグメントを決定することを含むことがある。いくつかの例では、指定されたしきい値は、残響時間ＲＴ₆₀に関して−６０ｄＢである。

[0043]ＢＲＩＲフィルタ３７の各々の追加のセグメントは、室からのエコー効果を含まない、インパルスで生じた圧力波に起因するインパルス応答を表し得る。これらのセグメントは、ＢＲＩＲフィルタ３７に関する頭部伝達関数（ＨＲＴＦ）として表され、説明され得、ここで、ＨＲＴＦは、圧力波が鼓膜まで進むにつれて頭、肩／胴、および外耳の周りの圧力波の回折および反射によるインパルス応答を取り込む。ＨＲＴＦインパルス応答は、線形時不変系（ＬＴＩ：linear and time-invariant system）の結果であり、最小位相フィルタとしてモデル化され得る。いくつかの例では、レンダリングの間のＨＲＴＦセグメント計算を削減するための技法は、最小位相再構成を含み、元の有限インパルス応答（ＦＩＲ）フィルタ（たとえば、ＨＲＴＦフィルタセグメント）の次数を削減するために、無限インパルス応答（ＩＩＲ）フィルタを使用することができる。

[0044]ＩＩＲフィルタとして実装される最小位相フィルタは、削減されたフィルタ次数を有するＢＲＩＲフィルタ３７に関するＨＲＴＦフィルタを近似するために使用され得る。次数を削減することは、周波数領域において時間ステップに関する計算の数が付随して削減することをもたらす。加えて、最小位相フィルタの構築に起因する残余／余剰フィルタが、音の圧力波が音源から各耳まで進む距離によって引き起こされる時間距離または位相距離を表す両耳間時間差（ＩＴＤ：interaural time difference）を推定するために使用され得る。次いで、ＩＴＤは、１つまたは複数のＢＲＩＲフィルタ３７と、音場を記述する（すなわち、バイノーラル化を決定する）階層要素との畳み込みを計算した後、片耳または両耳に関する音の定位をモデル化するために使用され得る。

[0045]またさらに、ＢＲＩＲフィルタ３７の各々のセグメントがＨＲＴＦセグメントに後続し、インパルス応答に関する室内の効果を説明し得る。この室内セグメントは、早期エコー（または「早期反射」）セグメントと後期残響セグメントとにさらに分解され得る（すなわち、早期エコーおよび後期残響が、それぞれ、ＢＲＩＲフィルタ３７の各々の別個のセグメントによって表され得る）。ＨＲＴＦデータがＢＲＩＲフィルタ３７に関して利用可能である場合、早期エコーセグメントの開始は、ＨＲＴＦセグメントを識別するためにＢＲＩＲフィルタ３７とＨＲＴＦとの逆畳み込みを行うことによって識別され得る。早期エコーセグメントが、ＨＲＴＦセグメントに後続する。残余室内応答とは異なり、ＨＲＴＦセグメントおよび早期エコーセグメントは、対応する仮想スピーカーの位置が重要な点における信号を決定するという点において方向依存性である。

[0046]いくつかの例では、バイノーラル音声レンダラ３４は、音場を記述する階層要素に関する球面調和領域（θ、φ）または他の領域のために準備されたＢＲＩＲフィルタ３７を使用する。すなわち、ＢＲＩＲフィルタ３７は、バイノーラル音声レンダラ３４が、ＢＲＩＲフィルタ３７の（たとえば、左／右の）対称性およびＳＨＣ２７’の対称性を含む、データセットのいくつかの特性を利用しながら高速畳み込みを実施することを可能にするために、球面調和領域（ＳＨＤ）において、変換されたＢＲＩＲフィルタ３７として規定され得る。そのような例では、変換されたＢＲＩＲフィルタ３７は、ＳＨＣレンダリング行列と元のＢＲＩＲフィルタとを乗算する（または時間領域において畳み込みを行う）ことによって生成され得る。数学的に、これは、下式（１）〜（５）

に従って表現され得る。

[0047]ここで、（３）は、（１）または（２）のいずれかを、４次の球面調和係数に関する行列形式で示す（これは、４次以下の球面基底関数と関連付けられた球面調和係数の行列形式を表すための代替方法であり得る）。式（３）は、当然ながら、より高次またはより低次の球面調和係数に関して修正され得る。式（４）〜式（５）は、合計されたＳＨＣ−バイノーラルレンダリング行列（ＢＲＩＲ’’）を生成するために、変換された左および右のＢＲＩＲフィルタ３７をラウドスピーカー次元Ｌにわたって合計することを示す。相まって、合計されたＳＨＣ−バイノーラルレンダリング行列は、次元［（Ｎ＋１）²、Ｌｅｎｇｔｈ、２］を有し、ここで、Ｌｅｎｇｔｈは、式（１）〜式（５）の任意の結合が適用され得るインパルス応答ベクトルの長さである。式（１）および式（２）のいくつかの例では、レンダリング行列ＳＨＣは、式（１）が、ＢＲＩＲ’_{(N+1)2,L,left}＝ＳＨＣ_{(N+1)2,L,left}＊ＢＲＩＲ_L,leftに修正され、式（２）が、ＢＲＩＲ’_{(N+1)2,L,right}＝ＳＨＣ_(N+1)2,L＊ＢＲＩＲ_L,rightに修正され得るように、バイノーラル化され得る。

[0048]上式（１）〜（３）において提示される行列をレンダリングするＳＨＣ、ＳＨＣは、ＳＨＣ２７’の次数／副次数の結合の各々に関する要素を含み、それは、別個のＳＨＣチャンネルを効率的に規定し、ここで、要素の値は、球面調和領域内のスピーカーＬの位置に関するセットである。ＢＲＩＲ_L,leftは、左耳、またはスピーカーＬに関する位置で生成されたインパルスに関する位置におけるＢＲＩＲ応答を表し、｛ｉ｜ｉ∈［０，Ｌ］｝に関するインパルス応答ベクトルＢ_{iを使用して(3)で表される。}ＢＲＩＲ’_{(N+1)2,L,left}は、「ＳＨＣ−バイノーラルレンダリング行列」の半分、すなわち、球面調和領域に変換された、左耳またはスピーカーＬに関する位置で生成されたインパルスに関する位置におけるＳＨＣ−バイノーラルレンダリング行列を表す。ＢＲＩＲ’_{(N+1)2,L,right}は、ＳＨＣ−バイノーラルレンダリング行列の他方の半分を表す。

[0049]いくつかの例では、本技法は、変換されたＢＲＩＲフィルタ３７とＳＨＣ−バイノーラルレンダリング行列とを生成するために、それぞれの元のＢＲＩＲフィルタ３７のＨＲＴＦおよび早期反射セグメントだけにＳＨＣレンダリング行列を適用することを含み得る。これは、ＳＨＣ２７’との畳み込みの長さを削減し得る。

[0050]いくつかの例では、式（４）〜（５）に表されるように、球面調和領域における様々なラウドスピーカーを組入れる次元を有するＳＨＣ−バイノーラルレンダリング行列は、ＳＨＣレンダリングとＢＲＩＲレンダリング／ミキシングとを結合する（Ｎ＋１）²＊Ｌｅｎｇｔｈ＊２のフィルタ行列を生成するように合計され得る。すなわち、Ｌ個のラウドスピーカーの各々に関するＳＨＣ−バイノーラルレンダリング行列は、たとえば、係数をＬ次元にわたって合計することによって結合され得る。長さＬｅｎｇｔｈのＳＨＣ−バイノーラルレンダリング行列に関して、これは、信号をバイノーラル化するために球面調和係数の音声信号に適用され得る（Ｎ＋１）²＊Ｌｅｎｇｔｈ＊２の合計された、ＳＨＣ−バイノーラルレンダリング行列を作成する。Ｌｅｎｇｔｈは、本明細書で説明する技法に従ってセグメント化されたＢＲＩＲフィルタのセグメントの長さであり得る。

[0051]モデル節減のための技法はまた、変更されたレンダリングフィルタに適用され得、それは、ＳＨＣ２７’（たとえば、ＳＨＣコンテンツ）が新しいフィルタ行列（合計されたＳＨＣ−バイノーラルレンダリング行列）で直接フィルタリングされることを可能にする。次いで、バイノーラル音声レンダラ３４は、バイノーラル出力信号３５Ａ、３５Ｂを取得するためにフィルタリングされたアレイを合計することによってバイノーラル音声に変換し得る。

[0052]いくつかの例では、音声再生システム３２のＢＲＩＲフィルタ３７は、上記で説明した技法のうちの任意の１つまたは複数に従って以前に計算された球面調和領域における変換されたＢＲＩＲフィルタを表す。いくつかの例では、元のＢＲＩＲフィルタ３７の変換は、実行時に実施され得る。

[0053]いくつかの例では、ＢＲＩＲフィルタ３７は一般的に対称であるので、本技法は、左または右のいずれかの耳に関するＳＨＣ−バイノーラルレンダリング行列だけを使用することによって、バイノーラル出力３５Ａ、３５Ｂの計算のさらなる節減を促進することができる。フィルタ行列によってフィルタリングされたＳＨＣ２７’を合計するとき、バイノーラル音声レンダラ３４は、最終出力をレンダリングするとき、第２のチャンネルとしての出力信号３５Ａ、３５Ｂのいずれかに関して、条件付き決定を行うことができる。本明細書で説明するように、左または右のいずれかの耳に対して記述された、処理コンテンツまたは修正レンダリング行列に対する言及は、他方の耳に同様に適用可能であるものと理解されるべきである。

[0054]このようにして、本技法は、除外されたＢＲＩＲフィルタサンプルと複数のチャンネルとの直接の畳み込みを潜在的に回避するために、ＢＲＩＲフィルタ３７の長さを削減するための複数の手法を提供し得る。その結果、バイノーラル音声レンダラ３４は、ＳＨＣ２７’からのバイノーラル出力信号３５Ａ、３５Ｂの効率的なレンダリングを提供し得る。

[0055]図４は、例示的なバイノーラル室内インパルス応答（ＢＲＩＲ）を示すブロック図である。ＢＲＩＲ４０は、５つのセグメント４２Ａ〜４２Ｅを示す。初期セグメント４２Ａおよび末尾セグメント４２Ｅは共に、いずれも、重要でなく、レンダリング計算から除外されてよい静止サンプルを含む。頭部伝達関数（ＨＲＴＦ）セグメント４２Ｂは、頭部伝達によるインパルス応答を含み、本明細書で説明する技法を使用して識別され得る。早期エコー（代替として「早期反射」）セグメント４２Ｃおよび後期室内残響セグメント４２Ｄは、ＨＲＴＦと室内効果とを結合する、すなわち、早期エコーセグメント４２Ｃのインパルス応答は、室内の早期エコーおよび後期残響によってフィルタリングされたＢＲＩＲ４０に関するＨＲＴＦのインパルス応答に匹敵する。しかしながら、早期エコーセグメント４２Ｃは、後期室内残響セグメント４２Ｄと比較して、より離散的なエコーを含むことがある。ミキシング時間は、早期エコーセグメント４２Ｃと後期室内残響セグメント４２Ｄとの間の時間であり、早期エコーが密な残響になる時間を示す。ミキシング時間は、ＨＲＴＦの中に約１．５×１０⁴サンプルにおいて、またはＨＲＴＦセグメント４２Ｂの開始から約７．０×１０⁴サンプルにおいて発生するように図示されている。いくつかの例では、本技法は、統計データと室内容積からの推定とを使用してミキシング時間を計算することを含む。いくつかの例では、５０％の内部信頼ｔ_mp50を有する知覚のミキシング時間は約３６ミリ秒（ｍｓ）であり、９５％信頼区間ｔ_mp95を有する知覚のミキシング時間は約８０ｍｓである。いくつかの例では、ＢＲＩＲ４０に対応するフィルタの後期室内残響セグメント４２Ｄは、コヒーレンス整合された雑音末尾（coherence-matched noise tail）を使用して合成され得る。

[0056]図５は、室内で図４のＢＲＩＲ４０などのＢＲＩＲを作成するための例示的なシステムモデル５０を示すブロック図である。このモデルは、ここでは室内５２ＡおよびＨＲＴＦ５２Ｂの、カスケード接続されたシステムを含む。ＨＲＴＦ５２Ｂがインパルスに対して適用された後、インパルス応答は、室内５２Ａの早期エコーによってフィルタリングされたＨＲＴＦのインパルス応答に匹敵する。

[0057]図６は、室内で図４のＢＲＩＲ４０などのＢＲＩＲを作成するための、より詳細なシステムモデル６０を示すブロック図である。このモデル６０はまた、ここではＨＲＴＦ６２Ａ、早期エコー６２Ｂ、および残余室内６２Ｃ（これはＨＲＴＦと室内エコーとを結合する）の、カスケード接続されたシステムを含む。モデル６０は、室内５２Ａを早期エコー６２Ｂおよび残余室内６２Ｃに分解することを示し、各システム６２Ａ、６２Ｂ、６２Ｃを線形時不変として取り扱う。

[0058]早期エコー６２Ｂは、残余室内６２Ｃより離散的なエコーを含む。したがって、早期エコー６２Ｂは仮想スピーカーチャンネルごとに変化し得、一方、より長い末尾を有する残余室内６２Ｃは、単一のステレオコピーとして合成され得る。ＢＲＩＲを取得するために使用されるいくつかの測定用マネキンに関して、ＨＲＴＦデータが、無響室内で測定されるなど入手可能である。早期エコー（「反射」と呼ばれることがある）の位置を識別するために、早期エコー６２Ｂが、ＢＲＩＲおよびＨＲＴＦのデータを逆畳み込みを行うことによって決定され得る。いくつかの例では、ＨＲＴＦデータはすぐに入手可能ではなく、早期エコー６２Ｂを識別するための技法はブラインド推定を含む。しかしながら、単純な手法は、最初の数ミリ秒（たとえば、最初の５、１０、１５、または２０ｍｓ）を、ＨＲＴＦによってフィルタリングされた直接インパルスと見なすことを含み得る。上記のように、本技法は、統計データと室内容積からの推定とを使用してミキシング時間を計算することを含み得る。

[0059]いくつかの例では、本技法は、残余室内６２Ｃに関して１つまたは複数のＢＲＩＲフィルタを合成することを含み得る。ミキシング時間の後、ＢＲＩＲ残響の末尾（図６にシステムの残余室内６２Ｃとして表される）は、いくつかの例では、知覚の代償なしに交換され得る。さらに、ＢＲＩＲ残響の末尾は、エネルギーディケイレリーフ（ＥＤＲ：Energy Decay Relief）と周波数依存性両耳間コヒーレンス（ＦＤＩＣ：Frequency-Dependent Interaural Coherence）とに適合するガウスノイズで合成され得る。いくつかの例では、共通の合成ＢＲＩＲ残響の末尾が、複数のＢＲＩＲフィルタに関して生成され得る。いくつかの例では、共通のＥＤＲは、すべてのスピーカーのＥＤＲの平均であり得、または平均エネルギーに匹敵するエネルギーを有するフロントゼロ度ＥＤＲ（front zero degree EDR）であり得る。いくつかの例では、ＦＤＩＣは、すべてのスピーカーにわたる平均ＦＤＩＣであり得、または広い空間に関する最大限に相関のない測定に関する、すべてのスピーカーにわたった最小値であってよい。いくつかの例では、残響の末尾はまた、フィードバック遅延ネットワーク（ＦＤＮ：Feedback Delay Network）による人工的残響を用いてシミュレーションされ得る。

[0060]共通の残響の末尾によって、対応するＢＲＩＲフィルタの後ろの部分は、各スピーカーフィードとの個別の畳み込みから除外され得るが、代わりに、一度、すべてのスピーカーフィードのミックスに適用され得る。上記のように、および以下でさらに詳細に説明するように、すべてのスピーカーフィードのミキシングは、球面調和係数信号レンダリングを用いてさらに簡素化され得る。

[0061]図７は、本開示で説明するバイノーラル音声レンダリング技法の様々な態様を実施し得る音声再生デバイスの一例を示すブロック図である。単一のデバイス、すなわち図７の例における音声再生デバイス１００として示されているが、技法は、１つまたは複数のデバイスによって実施され得る。したがって、本技法はこの点において限定されるべきではない。

[0062]図７の例に示すように、音声再生デバイス１００は、抽出ユニット１０４とバイノーラルレンダリングユニット１０２とを含み得る。抽出ユニット１０４は、ビットストリーム１２０から符号化音声データを抽出するように構成されたユニットを表し得る。抽出ユニット１０４は、球面調和係数（ＳＨＣ）１２２（これは、ＳＨＣ１２２が、１より大きい次数と関連付けられた少なくとも１つの係数を含み得るという点において高次アンビソニックス（ＨＯＡ：higher order ambisonics）と呼ばれることもある）の形態の抽出された符号化音声データをバイノーラルレンダリングユニット１４６に転送し得る。

[0063]いくつかの例では、音声再生デバイス１００は、ＳＨＣ１２２を生成するために符号化音声データを復号するように構成された音声復号ユニットを含む。音声復号ユニットは、いくつかの態様においてＳＨＣ１２２を符号化するために使用される音声符号化プロセスと相反する音声復号プロセスを実施し得る。音声復号ユニットは、符号化音声データのＳＨＣを時間領域から周波数領域に変換するように構成された時間周波数解析ユニットを含み得、それによってＳＨＣ１２２を生成する。すなわち、符号化音声データが、時間領域から周波数領域に変換されていない、ＳＨＣ１２２の圧縮形態を表すとき、音声復号ユニットは、ＳＨＣ１２２（周波数領域で指定される）を生成するように、ＳＨＣを時間領域から周波数領域に変換するために時間周波数解析ユニットを起動し得る。時間周波数解析ユニットは、ＳＨＣを時間領域から周波数領域におけるＳＨＣ１２２に変換するために、数例を提示すると、高速フーリエ変換（ＦＦＴ）と、離散コサイン変換（ＤＣＴ）と、修正離散コサイン変換（ＭＤＣＴ）と、離散サイン変換（ＤＳＴ）とを含む、フーリエベースの変換の任意の形式を適用し得る。いくつかの例では、ＳＨＣ１２２は、すでに、ビットストリーム１２０において周波数領域内で指定され得る。これらの例では、時間周波数解析ユニットは、変換を適用することなく、またはさもなければ受信されたＳＨＣ１２２を変換することなく、ＳＨＣ１２２をバイノーラルレンダリングユニット１０２に送ることができる。周波数領域で指定されたＳＨＣ１２２に関して説明したが、本技法は、時間領域で指定されたＳＨＣ１２２に関して実施され得る。

[0064]バイノーラルレンダリングユニット１０２は、ＳＨＣ１２２をバイノーラル化するように構成されたユニットを表す。言い換えれば、バイノーラルレンダリングユニット１０２は、ＳＨＣ１２２を左および右のチャンネルにレンダリングするように構成されたユニットを表し、そのユニットは、ＳＨＣ１２２が記録された室内において、左および右のチャンネルがリスナーによってどのように聞こえうるかのモデル化する空間化の機能を備え得る。バイノーラルレンダリングユニット１０２は、ヘッドフォンなどのヘッドセットを介する再生に好適な左チャンネル１３６Ａと右チャンネル１３６Ｂ（これらは「チャンネル１３６」と総称されることがある）とを生成するためにＳＨＣ１２２をレンダリングし得る。図７の例に示すように、バイノーラルレンダリングユニット１０２は、ＢＲＩＲフィルタ１０８と、ＢＲＩＲ調整ユニット１０６と、残余室内応答ユニット１１０と、ＢＲＩＲＳＨＣ−領域変換ユニット１１２と、畳み込みユニット１１４と、結合ユニット１１６とを含む。

[0065]ＢＲＩＲフィルタ１０８は、１つまたは複数のＢＲＩＲフィルタを含み、図３のＢＲＩＲフィルタ３７の一例を表し得る。ＢＲＩＲフィルタ１０８は、左および右のＨＲＴＦがそれぞれのＢＲＩＲに与える影響を表す、個別のＢＲＩＲフィルタ１２６Ａ、１２６Ｂを含み得る。

[0066]ＢＲＩＲ調整ユニット１０６は、仮想のラウドスピーカーＬの各々ごとの、それぞれ長さＮを有するＢＲＩＲフィルタ１２６Ａ、１２６Ｂの、Ｌ個のインスタンスを受信する。ＢＲＩＲフィルタ１２６Ａ、１２６Ｂは、すでに、静止サンプルを除去するために調整されていることがある。ＢＲＩＲ調整ユニット１０６は、それぞれのＨＲＴＦと、早期反射と、残余室内セグメントとを識別するためにＢＲＩＲフィルタ１２６Ａ、１２６Ｂをセグメント化するために、上記の技法を適用し得る。ＢＲＩＲ調整ユニット１０６は、ＢＲＩＲＳＨＣ−領域変換ユニット１１２にＨＲＴＦと早期反射セグメントとを、サイズ［ａ，Ｌ］の左および右の行列を表す行列１２９Ａ、１２９Ｂとして与え、ここで、ａはＨＲＴＦと早期反射セグメントとの連結の長さであり、Ｌは（仮想または実在の）ラウドスピーカーの数である。ＢＲＩＲ調整ユニット１０６は、残余室内応答ユニット１１０にＢＲＩＲフィルタ１２６Ａ、１２６Ｂの残余室内セグメントを、サイズ［ｂ，Ｌ］の左および右の残余室内行列１２８Ａ、１２８Ｂとして与え、ここで、ｂは残余室内セグメントの長さであり、Ｌは（仮想または実在の）ラウドスピーカーの数である。

[0067]残余室内応答ユニット１１０は、ＳＨＣ１２２によって図７に表すように、音場を記述する階層要素（たとえば、球面調和係数）の少なくとも幾分かの部分との畳み込みのために、左および右の共通の残余室内応答セグメントを計算またはさもなければ決定するために、上記の技法を適用し得る。すなわち、残余室内応答ユニット１１０は、左および右の残余室内行列１２８Ａ、１２８Ｂを受信し、左および右の共通の残余室内応答セグメントを生成するために左および右それぞれの残余室内行列１２８Ａ、１２８ＢをＬ個にわたって結合することができる。いくつかの例では、残余室内応答ユニット１１０は、左および右の残余室内行列１２８Ａ、１２８ＢをＬ個にわたって平均化することによって結合を実施し得る。

[0068]次いで、残余室内応答ユニット１１０は、左および右の共通の残余室内応答セグメントと、チャンネル１２４Ｂとして図７に示すＳＨＣ１２２の少なくとも１つのチャンネルとの高速畳み込みを計算し得る。いくつかの例では、左および右の共通の残余室内応答セグメントは周囲を取り巻く無指向性の音を表すので、チャンネル１２４Ｂは、ＳＨＣ１２２のＷチャンネル（すなわち、０次）であり、それは、音場の無指向性部を符号化する。そのような例では、長さＬｅｎｇｔｈのＷチャンネルサンプルに関して、残余室内応答ユニット１１０による左および右の共通の残余室内応答セグメントとの高速畳み込みは、長さＬｅｎｇｔｈの左および右の出力信号１３４Ａ、１３４Ｂを生成する。

[0069]本明細書で使用する「高速畳み込み」および「畳み込み」という用語は、時間領域における畳み込み演算、ならびに周波数領域における点毎の（point-wise）乗算演算を指すことがある。言い換えれば、信号処理の当業者によく知られているように、時間領域における畳み込みは、周波数領域における点毎の乗算と等価であり、ここで時間領域および周波数領域は、互いの変換である。出力変換は、入力変換と伝達関数との点毎の積である。したがって、畳み込みおよび点毎の乗算（または単に「乗算」）は、それぞれの領域（ここでは時間および周波数）に関して行われる概念的に同様の演算を指すことができる。畳み込みユニット１１４、２１４、２３０；残余室内応答ユニット２１０、３５４；フィルタ３８４および残響３８６は、代替として、周波数領域における乗算を適用し得、ここでこれらの成分への入力は、時間領域ではなく周波数領域において与えられる。「高速畳み込み」または「畳み込み」として本明細書で説明する他の演算は、同様に、周波数領域における乗算と呼ばれることもあり、ここで、これらの演算への入力は、時間領域ではなく周波数領域で与えられる。

[0070]いくつかの例では、残余室内応答ユニット１１０は、共通の残余室内応答セグメントの開始時間に関する値をＢＲＩＲ調整ユニット１０６から受信し得る。残余室内応答ユニット１１０は、ＢＲＩＲフィルタ１０８に関するより早いセグメントとの結合を見越して、出力信号１３４Ａ、１３４Ｂをゼロパディングするかまたはさもなければ遅延させ得る。

[0071]ＢＲＩＲＳＨＣ−領域変換ユニット１１２（以後、「領域変換ユニット１１２」）は、左および右のＢＲＩＲフィルタ１２６Ａ、１２６Ｂを球面調和領域に潜在的に変換し、次いでそのフィルタをＬ個にわたって潜在的に合計するために、ＳＨＣレンダリング行列をＢＲＩＲ行列に適用する。領域変換ユニット１１２は、変換結果を、それぞれ、左および右のＳＨＣ−バイノーラルレンダリング行列１３０Ａ、１３０Ｂとして出力する。行列１２９Ａ、１２９Ｂが［ａ，Ｌ］のサイズである場合、ＳＨＣ−バイノーラルレンダリング行列１３０Ａ、１３０Ｂの各々は、フィルタをＬ個にわたって合計した後、［（Ｎ＋１）²，ａ］のサイズになる（たとえば、式（４）〜（５）参照）。いくつかの例では、ＳＨＣ−バイノーラルレンダリング行列１３０Ａ、１３０Ｂは、実行時または準備時間において計算されるのではなく、音声再生デバイス１００の中で構成される。いくつかの例では、ＳＨＣ−バイノーラルレンダリング行列１３０Ａ、１３０Ｂの複数のインスタンスは、音声再生デバイス１００の中で構成され、音声再生デバイス１００は、ＳＨＣ１２４Ａに適用するために、左および右一対の複数のインスタンスを選択する。

[0072]畳み込みユニット１１４は、左および右のバイノーラルレンダリング行列１３０Ａ、１３０ＢとＳＨＣ１２４Ａとを畳み込み、ＳＨＣ１２４Ａは、いくつかの例では、ＳＨＣ１２２の次数から次数を削減することができる。周波数（たとえば、ＳＨＣ）領域におけるＳＨＣ１２４Ａに関して、畳み込みユニット１１４は、ＳＨＣ１２４Ａと左および右のバイノーラルレンダリング行列１３０Ａ、１３０Ｂとのそれぞれの点毎の乗算を計算し得る。長さＬｅｎｇｔｈのＳＨＣ信号に関して、畳み込みは、［Ｌｅｎｇｔｈ，（Ｎ＋１）²］のサイズの左および右のフィルタリングされたＳＨＣチャンネル１３２Ａ、１３２Ｂをもたらし、一般的に、球面調和領域の次数／副次数の結合の各々に関して各出力信号行列に関する行が存在する。

[0073]結合ユニット１１６は、バイノーラル出力信号１３６Ａ、１３６Ｂを作成するために、左および右のフィルタリングされたＳＨＣチャンネル１３２Ａ、１３２Ｂと出力信号１３４Ａ、１３４Ｂとを結合することができる。次いで、結合ユニット１１６は、バイノーラル出力信号１３６Ａ、１３６Ｂを生成するために左および右のバイノーラル出力信号と左および右の出力信号１３４Ａ、１３４Ｂとを結合する前に、ＨＲＴＦに関する左および右のバイノーラル出力信号と早期エコー（反射）セグメントとを生成するために、左および右のフィルタリングされたＳＨＣチャンネル１３２Ａ、１３２Ｂの各々をＬ個にわたって別々に合計することができる。

[0074]図８は、本開示で説明するバイノーラル音声レンダリング技法の様々な態様を実施し得る音声再生デバイスの一例を示すブロック図である。音声再生デバイス２００は、音声再生デバイスの例示的な例を表し得、図７の１００はさらなる詳細である。

[0075]音声再生デバイス２００は、ＳＨＣ２４２の次数を削減するために、ビットストリーム２４０から入ってくるＳＨＣ２４２を処理する随意のＳＨＣ次数削減ユニット２０４を含み得る。随意のＳＨＣ次数削減は、ＳＨＣ２４２（たとえば、Ｗチャンネル）の最高次数（たとえば、０次）のチャンネル２６２を残余室内応答ユニット２１０に与え、削減された次数のＳＨＣ２４２を畳み込みユニット２３０に与える。ＳＨＣ次数削減ユニット２０４がＳＨＣ２４２の次数を削減しない例では、畳み込みユニット２３０は、ＳＨＣ２４２と同等のＳＨＣ２７２を受信する。いずれにせよ、ＳＨＣ２７２は、［Ｌｅｎｇｔｈ，（Ｎ＋１）²］の次元を有し、ここでＮはＳＨＣ２７２の次数である。

[0076]ＢＲＩＲ調整ユニット２０６およびＢＲＩＲフィルタ２０８は、図７のＢＲＩＲ調整ユニット１０６およびＢＲＩＲフィルタ１０８の例示的な例を表し得る。残余応答ユニット２１４の畳み込みユニット２１４は、上記で説明した技法を使用してＢＲＩＲ調整ユニット２０６によって調整された共通の左および右の残余室内セグメント２４４Ａ、２４４Ｂを受信し、畳み込みユニット２１４は、左および右の残余室内信号２６２Ａ、２６２Ｂを生成するために共通の左および右の残余室内セグメント２４４Ａ、２４４Ｂと最高次数のチャンネル２６２とを畳み込む。遅延ユニット２１６は、左および右の残余室内出力信号２６８Ａ、２６８Ｂを生成するために、共通の左および右の残余室内セグメント２４４Ａ、２４４Ｂに対するサンプルの開始の数で左および右の残余室内信号２６２Ａ、２６２Ｂをゼロパディングすることができる。

[0077]ＢＲＩＲＳＨＣ−領域変換ユニット２２０（以後、領域変換ユニット２２０）は、図７の領域変換ユニット１１２の例示的な例を表し得る。図示の例では、変換ユニット２２２は、［ａ，Ｌ］のサイズの左および右の行列を表す行列２４８Ａ、２４８Ｂに（Ｎ＋１）²次元のＳＨＣレンダリング行列２２４を適用し、ここでａはＨＲＴＦと早期反射セグメントとの連結の長さであり、Ｌはラウドスピーカー（たとえば、仮想のラウドスピーカー）の数である。変換ユニット２２２は、次元［（Ｎ＋１）²，ａ，Ｌ］を有するＳＨＣ−領域における左および右の行列２５２Ａ、２５２Ｂを出力する。合計ユニット２２６は、次元［（Ｎ＋１）²，ａ］を有する左および右の中間ＳＨＣ−レンダリング行列２５４Ａ、２５４Ｂを作成するために、左および右の行列２５２Ａ、２５２Ｂの各々をＬ個にわたって合計し得る。削減ユニット２２８は、最小位相低減など、ＳＨＣ２７２にＳＨＣ−レンダリング行列を適用すること、および最小位相低減を適用されている中間ＳＨＣ−レンダリング行列２５４Ａ、２５４Ｂのそれぞれの最小位相部の周波数応答を近似するようにＩＩＲフィルタを設計するために平衡型モデル打切り法（Balanced Model Truncation method）を使用すること、についての計算の複雑さをさらに削減するために、上記で説明した技法を適用し得る。削減ユニット２２８は、左および右のＳＨＣ−レンダリング行列２５６Ａ、２５６Ｂを出力する。

[0078]畳み込みユニット２３０は、中間信号２５８Ａ、２５８Ｂを生成するためにＳＨＣ２７２の形態のＳＨＣコンテンツをフィルタリングし、合計ユニット２３２は、左および右の信号２６０Ａ、２６０Ｂを作成するために中間信号２５８Ａ、２５８Ｂを合計する。結合ユニット２３４は、左および右のバイノーラル出力信号２７０Ａ、２７０Ｂを生成するために左および右の残余室内出力信号２６８Ａ、２６８Ｂと左および右の信号２６０Ａ、２６０Ｂとを結合する。

[0079]いくつかの例では、バイノーラルレンダリングユニット２０２は、変換ユニット２２２によって生成されたＳＨＣ−バイノーラルレンダリング行列２５２Ａ、２５２Ｂのうちの１つだけを使用することによって計算のさらなる削減を実施し得る。その結果、畳み込みユニット２３０は、左または右の信号の一方だけについて演算し、畳み込み演算を半分に削減することができる。そのような例では、合計ユニット２３２は、出力２６０Ａ、２６０Ｂをレンダリングするときに、第２のチャンネルに関する条件付き決定を行う。

[0080]図９は、本開示で説明する技法による球面調和係数をレンダリングするための、バイノーラルレンダリングデバイスに関する例示的な演算のモードを示すフローチャートである。例示のために、例示的な演算のモードについて、図７の音声再生デバイス２００に関して説明する。バイノーラル室内インパルス応答（ＢＲＩＲ）調整ユニット２０６は、ＢＲＩＲフィルタ２４６Ａ、２４６Ｂから方向依存性成分／セグメント、特に頭部伝達関数および早期エコーセグメントを抽出することによって、左および右それぞれのＢＲＩＲフィルタ２４６Ａ、２４６Ｂを調整する（３００）。左および右のＢＲＩＲフィルタ１２６Ａ、１２６Ｂの各々は、１つまたは複数の対応するラウドスピーカーに関するＢＲＩＲフィルタを含み得る。ＢＲＩＲ調整ユニット１０６は、抽出された頭部伝達関数と早期エコーセグメントとの連結を、左および右の行列２４８Ａ、２４８ＢとしてＢＲＩＲＳＨＣ−領域変換ユニット２２０に与える。

[0081]ＢＲＩＲＳＨＣ−領域変換ユニット２２０は、球面調和（たとえば、ＨＯＡ）領域内の左および右のフィルタ行列２５２Ａ、２５２Ｂを生成するために、抽出された頭部伝達関数と早期エコーセグメントとを含む左および右のフィルタ行列２４８Ａ、２４８Ｂを変換するためにＨＯＡレンダリング行列２２４を適用する（３０２）。いくつかの例では、音声再生デバイス２００は、左および右のフィルタ行列２５２Ａ、２５２Ｂを用いて構成され得る。いくつかの例では、音声再生デバイス２００は、ビットストリーム２４０の帯域外または帯域内の信号においてＢＲＩＲフィルタ２０８を受信し、その場合、音声再生デバイス２００は、左および右のフィルタ行列２５２Ａ、２５２Ｂを生成する。合計ユニット２２６は、左および右の中間ＳＨＣ−レンダリング行列２５４Ａ、２５４Ｂを含むＳＨＣ領域内のバイノーラルレンダリング行列を生成するために、それぞれの左および右のフィルタ行列２５２Ａ、２５２Ｂをラウドスピーカーの次元にわたって合計する（３０４）。削減ユニット２２８は、左および右のＳＨＣ−レンダリング行列２５６Ａ、２５６Ｂを生成するために、中間ＳＨＣ−レンダリング行列２５４Ａ、２５４Ｂをさらに削減し得る。

[0082]バイノーラルレンダリングユニット２０２の畳み込みユニット２３０は、左および右のフィルタリングされたＳＨＣ（たとえば、ＨＯＡ）チャンネル２５８Ａ、２５８Ｂを作成するために、左および右の中間ＳＨＣ−レンダリング行列２５６Ａ、２５６ＢをＳＨＣコンテンツ（球面調和係数２７２など）に適用する（３０６）。

[0083]合計ユニット２３２は、方向依存性セグメントに関する左および右の信号２６０Ａ、２６０Ｂを作成するために、左および右のフィルタリングされたＳＨＣチャンネル２５８Ａ、２５８Ｂの各々をＳＨＣ次元（Ｎ＋１）²にわたって合計する（３０８）。次いで、結合ユニット１１６は、左および右のバイノーラル出力信号２７０Ａ、２７０Ｂを含むバイノーラル出力信号を生成するために、左および右の信号２６０Ａ、２６０Ｂと左および右の残余室内出力信号２６８Ａ、２６８Ｂとを結合し得る。

[0084]図１０Ａは、本開示で説明する技法の様々な態様による、図７および図８の音声再生デバイスによって実施され得る例示的な演算のモード３１０を示す図である。演算のモード３１０は、図８の音声再生デバイス２００に関して、後で本明細書で説明される。音声再生デバイス２００のバイノーラルレンダリングユニット２０２は、ＢＲＩＲデータ３１２、これはＢＲＩＲフィルタ２０８の例示的な例であり得ると、ＨＯＡレンダリング行列３１４、これはＨＯＡレンダリング行列２２４の例示的な例であり得る、とを用いて構成され得る。音声再生デバイス２００は、帯域内または帯域外のシグナリングチャンネル内のＢＲＩＲデータ３１２とＨＯＡレンダリング行列３１４とをビットストリーム２４０と相対して受信し得る。この例におけるＢＲＩＲデータ３１２は、たとえば、Ｌ個の実在または仮想のラウドスピーカーを表すＬ個のフィルタを有し、Ｌ個のフィルタの各々は長さＫである。Ｌ個のフィルタの各々は、左および右の成分を含み得る（「ｘ２」）。いくつかの場合には、Ｌ個のフィルタの各々は、左または右に関する単一の成分を含むことがあり、その成分は、右または左のその相手の成分と対称である。これは、高速畳み込みのコストを削減し得る。

[0085]音声再生デバイス２００のＢＲＩＲ調整ユニット２０６は、セグメント化演算と結合演算とを適用することによってＢＲＩＲデータ３１２を調整し得る。具体的には、例示的な演算のモード３１０において、ＢＲＩＲ調整ユニット２０６は、本明細書で説明する技法によるＬ個のフィルタの各々を、行列３１５（次元［ａ，２，Ｌ］）を作成するための結合の長さａのＨＲＴＦプラス早期エコーセグメントと、残余行列３３９（次元［ｂ，２，Ｌ］）を作成するための残余室内応答セグメントとにセグメント化する（３２４）。ＢＲＩＲデータ３１２のＬ個のフィルタの長さＫは、ほぼ、ａとｂとの合計である。変換ユニット２２２は、次元［（Ｎ＋１）²，ａ，２，Ｌ］の行列３１７（これは左および右の行列２５２Ａ、２５２Ｂの結合の例示的な例であり得る）を作成するために、（Ｎ＋１）²次元のＨＯＡ／ＳＨＣレンダリング行列３１４を行列３１５のＬ個のフィルタに適用し得る。合計ユニット２２６は、次元［（Ｎ＋１）²，ａ，２］を有する中間ＳＨＣ−レンダリング行列３３５を作成するために、左および右の行列２５２Ａ、２５２Ｂの各々をＬ個にわたって合計し得る（値２を有する第３の次元は左および右の成分を表し、中間ＳＨＣ−レンダリング行列３３５は、左および右の両方の中間ＳＨＣ−レンダリング行列２５４Ａ、２５４Ｂの例示的な例として表すことができる）（３２６）。いくつかの例では、音声再生デバイス２００は、ＨＯＡコンテンツ３１６（またはそれの削減されたバージョン、たとえばＨＯＡコンテンツ３２１）に適用するための中間ＳＨＣ−レンダリング行列３３５を用いて構成され得る。いくつかの例では、削減ユニット２２８は、行列３１７の左または右の成分の一方だけを使用することによって、さらなる削減を計算に適用し得る（３２８）。

[0086]音声再生デバイス２００は、次数Ｎ_Iおよび長さＬｅｎｇｔｈのＨＯＡコンテンツ３１６を受信し、いくつかの態様では、その中の球面調和係数（ＳＨＣ）の次数をＮに削減するために次数削減演算を適用する（３３０）。Ｎ_Iは、入力（（Ｉ）ｎｐｕｔ）ＨＯＡコンテンツ３２１の次数を示す。次数削減演算（３３０）のＨＯＡコンテンツ３２１は、ＨＯＡコンテンツ３１６と同様に、ＳＨＣ領域内にある。随意の次数削減演算はまた、最高次数（たとえば、０次）の信号３１９を生成し、高速畳み込み演算のために残余応答ユニット２１０に与える（３３８）。ＨＯＡ次数削減ユニット２０４がＨＯＡコンテンツ３１６の次数を削減しない例では、高速畳み込み適用演算（apply fast convolution operation）（３３２）は、削減された次数を持たない入力に対して演算する。いずれにしても、高速畳み込み演算（３３２）に入力されるＨＯＡコンテンツ３２１は、次元［Ｌｅｎｇｔｈ，（Ｎ＋１）²］を有し、ここでＮは次数である。

[0087]音声再生デバイス２００は、左および右の成分、したがって次元［Ｌｅｎｇｔｈ，（Ｎ＋１）²，２］を有するＨＯＡ信号３２３を作成するために、ＨＯＡコンテンツ３２１と行列３３５との高速畳み込みを適用し得る（３３２）。ここでも、高速畳み込みは、周波数領域におけるＨＯＡコンテンツ３２１と行列３３５との点毎の乗算、または時間領域における畳み込みを指すことができる。音声再生デバイス２００は、次元［Ｌｅｎｇｔｈ，２］を有する合計された信号３２５を作成するために、ＨＯＡ信号３２３を（Ｎ＋１）²にわたってさらに合計することができる（３３４）。

[0088]次に、残余行列３３９に戻ると、音声再生デバイス２００は、次元「ｂ，２」を有する共通の残余室内応答行列３２７を生成するために、本明細書で説明する技法に従ってＬ個の残余室内応答セグメントを結合することができる（３３６）。音声再生デバイス２００は、次元［Ｌｅｎｇｔｈ，２］を有する室内応答信号３２９を作成するために、０次のＨＯＡ信号３１９と共通の残余室内応答行列３２７との高速畳み込みを適用し得る（３３８）。残余行列３３９のＬ個の残余応答室内応答セグメントを生成するために、音声再生デバイス２００は、ＢＲＩＲデータ３１２のＬ個のフィルタのうちの（ａ＋１）番目のサンプルにおいて開始する残余応答室内応答セグメントを取得したので、音声再生デバイス２００は、次元［Ｌｅｎｇｔｈ，２］を有する室内応答信号３１１を生成するためにａ個のサンプルを遅延（たとえば、パディング）することによって初期のａ個のサンプルを構成する（ａｃｃｏｕｎｔｆｏｒ）（３４０）。

[0089]音声再生デバイス２００は、次元［Ｌｅｎｇｔｈ，２］を有する出力信号３１８を作成するために、合計された信号３２５と室内応答信号３１１とを、要素を加算することによって結合する（３４２）。このようにして、音声再生デバイスは、Ｌ個の残余室内応答セグメントの各々に関して高速畳み込みを適用することを回避し得る。バイノーラル音声出力信号に変換するために入力される２２チャンネルに関して、これは、残余室内応答を生成するための高速畳み込みの数を、２２から２に削減し得る。

[0090]図１０Ｂは、本開示で説明する技法の様々な態様による、図７および図８の音声再生デバイスによって実施され得る例示的な演算のモード３５０を示す図である。演算のモード３５０は、図８の音声再生デバイス２００に関して、後で本明細書で説明され、演算のモード３１０と同様である。しかしながら、演算のモード３５０は、最初に、ＨＯＡコンテンツを、Ｌ個の実在または仮想のラウドスピーカーに関して時間領域内のマルチチャンネルスピーカー信号にレンダリングすることと、次いで、本明細書で説明する技法に従ってスピーカーフィードの各々に効率的なＢＲＩＲフィルタリングを適用することと、を含む。そのために、音声再生デバイス２００は、ＨＯＡコンテンツ３２１を、次元［Ｌｅｎｇｔｈ，Ｌ］を有するマルチチャンネル音声信号３３３に変換する（３４４）。加えて、音声再生デバイスは、ＢＲＩＲデータ３１２をＳＨＣ領域に変換しない。したがって、音声再生デバイス２００による削減を信号３１４に適用することは、次元［ａ，２，Ｌ］を有する行列３３７を生成する（３２８）。

[0091]次いで、音声再生デバイス２００は、次元［Ｌｅｎｇｔｈ，Ｌ，２］（左および右の成分を有する）を有するマルチチャンネル音声信号３４１を作成するために、マルチチャンネル音声信号３３３と行列３３７との高速畳み込み３３２を適用する（３４８）。次いで、音声再生デバイス２００は、次元［Ｌｅｎｇｔｈ，２］を有する信号３２５を作成するために、Ｌ個のチャンネル／スピーカーによるマルチチャンネル音声信号３４１を合計し得る（３４６）。

[0092]図１１は、本開示で説明するバイノーラル音声レンダリング技法の様々な態様を実施し得る音声再生デバイス３５０の一例を示すブロック図である。単一のデバイス、すなわち図１１の例における音声再生デバイス３５０として示されているが、本技法は、１つまたは複数のデバイスによって実施されてよい。したがって、本技法はこの点において限定されるべきではない。

[0093]その上、概して、図１〜図１０Ｂの例に関して球面調和領域において適用されるとして上記で説明されているが、本技法はまた、５．１サラウンドサウンドフォーマット、７．１サラウンドサウンドフォーマット、および／または２２．２サラウンドサウンドフォーマットなど、上記のサラウンドサウンドフォーマットに適合するチャンネルベースの信号を含む、任意の形態の音声信号に関して実施され得る。したがって、本技法はまた、球面調和領域内で指定された音声信号に限定されるべきではなく、任意の形態の音声信号に対して適用され得る。本明細書で使用するＡ「および／または」Ｂは、Ａ、Ｂ、またはＡとＢとの結合を指すことができる。

[0094]図１１の例に示すように、音声再生デバイス３５０は、図７の例に示す音声再生デバイス１００に類似し得る。しかしながら、音声再生デバイス３５０は、一例として２２．２サラウンドサウンドフォーマットに適合する一般的なチャンネルベースの音声信号に関する技法を演算またはさもなければ実施することができる。抽出ユニット１０４は、音声チャンネル３５２を抽出し得、ここで音声チャンネル３５２は、一般に「ｎ」チャンネルを含み得、この例では、２２．２サラウンドサウンドフォーマットに適合する２２チャンネルを含むものと仮定される。これらのチャンネル３５２は、バイノーラルレンダリングユニット３５１の残余室内応答ユニット３５４とチャンネルごとの打切りフィルタユニット３５６の両方に与えられる。

[0095]上記で説明したように、ＢＲＩＲフィルタ１０８は、１つまたは複数のＢＲＩＲフィルタを含み、図３のＢＲＩＲフィルタ３７の一例を表し得る。ＢＲＩＲフィルタ１０８は、左および右のＨＲＴＦがそれぞれのＢＲＩＲに与える影響を表す、個別のＢＲＩＲフィルタ１２６Ａ、１２６Ｂを含み得る。

[0096]ＢＲＩＲ調整ユニット１０６は、ＢＲＩＲフィルタ１２６Ａ、１２６Ｂのｎ個のインスタンスを受信し、各チャンネルｎそれぞれに関して、各ＢＲＩＲフィルタは長さＮを有する。ＢＲＩＲフィルタ１２６Ａ、１２６Ｂは、すでに、静止サンプルを除去するために調整されていることがある。ＢＲＩＲ調整ユニット１０６は、それぞれのＨＲＴＦと、早期反射と、残余室内セグメントとを識別するためにＢＲＩＲフィルタ１２６Ａ、１２６Ｂをセグメント化するために、上記で説明した技法を適用し得る。ＢＲＩＲ調整ユニット１０６は、チャンネルごとの打切りフィルタユニット３５６にＨＲＴＦと早期反射セグメントとを、サイズ［ａ，Ｌ］の左および右の行列を表す行列１２９Ａ、１２９Ｂとして与え、ここで、ａはＨＲＴＦと早期反射セグメントとの連結の長さであり、ｎは（仮想または実在の）ラウドスピーカーの数である。ＢＲＩＲ調整ユニット１０６は、残余室内応答ユニット３５４にＢＲＩＲフィルタ１２６Ａ、１２６Ｂの残余室内セグメントを、サイズ［ｂ，Ｌ］の左および右の残余室内行列１２８Ａ、１２８Ｂとして与え、ここで、ｂは残余室内セグメントの長さであり、ｎは（仮想または実在の）ラウドスピーカーの数である。

[0097]残余室内応答ユニット３５４は、音声チャンネル３５２との畳み込みのための左および右の共通の残余室内応答セグメントを計算またはさもなければ決定するために、上記で説明する技法を適用し得る。すなわち、残余室内応答ユニット１１０は、左および右の残余室内行列１２８Ａ、１２８Ｂを受信し、左および右の共通の残余室内応答セグメントを生成するために左および右それぞれの残余室内行列１２８Ａ、１２８Ｂをｎ個にわたって結合することができる。いくつかの例では、残余室内応答ユニット３５４は、左および右の残余室内行列１２８Ａ、１２８Ｂをｎ個にわたって平均化することによって結合を実施し得る。

[0098]次いで、残余室内応答ユニット３５４は、左および右の共通の残余室内応答セグメントと、音声チャンネル３５２のうちの少なくとも１つのチャンネルとの高速畳み込みを計算し得る。いくつかの例では、残余室内応答ユニット３５２は、共通の残余室内応答セグメントの開始時間に関する値をＢＲＩＲ調整ユニット１０６から受信し得る。残余室内応答ユニット３５４は、ＢＲＩＲフィルタ１０８に関する、より早いセグメントとの結合を見越して、出力信号１３４Ａ、１３４Ｂをゼロパディングするかまたはさもなければ遅延させ得る。出力信号１３４Ａは左音声信号を表す一方で、出力信号１３４Ｂは右音声信号を表すことができる。

[0099]チャンネルごとの打切りフィルタユニット３５６（以後、「打切りフィルタユニット３５６」）は、ＨＲＴＦとＢＲＩＲフィルタの早期反射セグメントとをチャンネル３５２に適用し得る。より具体的には、チャンネルごとの打切りフィルタユニット３５６は、ＨＲＴＦとＢＲＩＲフィルタの早期反射セグメントとを表す行列１２９Ａ、１２９Ｂをチャンネル３５２のそれぞれのチャンネルに適用し得る。いくつかの例では、行列１２９Ａ、１２９Ｂは、単一の行列１２９を形成するように結合され得る。その上、一般的に、ＨＲＴＦならびに早期反射行列１２９Ａおよび１２９Ｂの各々のうちの左の１つと、ＨＲＴＦならびに早期反射行列１２９Ａおよび１２９Ｂの各々のうちの右の１つとが存在する。すなわち、一般的に、左耳および右耳に関するＨＲＴＦと早期反射行列とが存在する。チャンネルごとの方向ユニット３５６は、左および右のフィルタリングされたチャンネル３５８Ａおよび３５８Ｂを出力するために、左および右の行列１２９Ａ、１２９Ｂの各々を適用し得る。結合ユニット１１６は、バイノーラル出力信号１３６Ａ、１３６Ｂを作成するために、左のフィルタリングされたチャンネル３５８Ａと出力信号１３４Ａとを結合する（または、言い換えればミックスする）一方で、右のフィルタリングされたチャンネル３５８Ｂと出力信号１３４Ｂとを結合する（または、言い換えればミックスする）ことができる。バイノーラル出力信号１３６Ａは左の音声チャンネルに対応し、バイノーラル出力信号１３６Ｂは右の音声チャンネルに対応することができる。

[0100]いくつかの例では、バイノーラルレンダリングユニット３５１は、残余室内応答ユニット３５４が、チャンネルごとの打切りフィルタユニット３５６の演算と同時に演算するように、残余室内応答ユニット３５４とチャンネルごとの打切りフィルタユニット３５６とを互いに同時に起動し得る。すなわち、いくつかの例では、残余室内応答ユニット３５４は、バイノーラル出力信号１３６Ａ、１３６Ｂが生成され得る速度を改善するために、チャンネルごとの打切りフィルタユニット３５６と並列に（しかし、同時でないことが多い）演算することが多い。潜在的にカスケード接続方式で演算するように様々な上記の図において示しているが、本技法は、別段に具体的に規定されていない限り、本開示で説明する説明するユニットまたはモジュールのいずれもの同時演算または並列演算を提供し得る。

[0101]図１２は、本開示で説明する技法の様々な態様による、図１１の音声再生デバイス３５０によって実施され得るプロセス３８０を示す図である。プロセス３８０は、各ＢＲＩＲを２つの部分：（ａ）左フィルタ３８４Ａ_L〜３８４Ｎ_Lおよび右フィルタ３８４Ａ_R〜３８４Ｎ_R（総称して「フィルタ３８４」）によって表されるＨＲＴＦおよび早期反射の効果を組み込む、より小さい構成要素、および（ｂ）元のＢＲＩＲのすべての末尾の特性から生成され、左残響フィルタ３８６Ｌおよび右残響フィルタ３８６Ｒ（総称して「共通のフィルタ３８６」）によって表される共通の「残響の末尾」に分解することを達成する。プロセス３８０に示すチャンネルごとのフィルタ３８４は、上記の部分（ａ）を表す一方で、プロセス３８０に示す共通のフィルタ３８６は、上記の部分（ｂ）を表すことができる。

[0102]プロセス３８０は、不可聴成分を除去し、ＨＲＴＦ／早期反射を備える成分と後期反射／拡散による成分とを決定するためにＢＲＩＲを解析することによってこの分解を実施する。これは、部分（ａ）に関する、一例として２７０４タップ（tap）の長さのＦＩＲフィルタと、部分（ｂ）に関する、別の例として１５２３２タップの長さのＦＩＲフィルタとをもたらす。プロセス３８０によれば、音声再生デバイス３５０は、より短いＦＩＲフィルタだけを、個別のｎチャンネルの各々に適用し得、ｎは、演算３９６において例示のために２２であると仮定されている。この演算の複雑性は、以下で再生される式（８）における第１の部分の計算（４０９６点のＦＦＴを使用する）において表され得る。プロセス３８０では、音声再生デバイス３５０は、共通の「残響の末尾」を、２２チャンネルの各々にではなく、演算３９８においてそれらすべての加法的なミックスに適用し得る。この複雑性は、式（８）における複雑性の計算の第２の半分において表される。

[0103]この点において、プロセス３８０は、複数のＮチャンネルからの音声コンテンツをミックスすることに基づいて、合成音声信号を生成するバイノーラル音声レンダリングの方法を表し得る。加えて、プロセス３８０は、さらに、合成音声信号を、遅延によってＮチャンネルフィルタの出力と整列させ得、各チャンネルフィルタは、打切りＢＲＩＲフィルタを含む。その上、プロセス３８０では、音声再生デバイス３５０は、次いで、演算３９８において共通の合成残余室内インパルス応答を用いて整列合成音声信号をフィルタリングし、バイノーラル音声出力の左成分３８８Ｌおよび右成分３８８Ｒのために、演算３９０Ｌおよび３９０Ｒにおいて、各チャンネルフィルタの出力とフィルタリングされた整列合成音声信号とをミックスすることができる。

[0104]いくつかの例では、打切りＢＲＩＲフィルタおよび共通の合成残余インパルス応答は、メモリにプリロードされる。

[0105]いくつかの例では、整列合成音声信号のフィルタリングは、時間周波数領域内で実施される。

[0106]いくつかの例では、整列合成音声信号のフィルタリングは、畳み込みを介して時間領域内で実施される。

[0107]いくつかの例では、打切りＢＲＩＲフィルタおよび共通の合成残余インパルス応答は、分解分析法に基づく。

[0108]いくつかの例では、分解分析法は、Ｎ個の室内インパルス応答の各々に対して実施され、Ｎ個の打切り室内インパルス応答とＮ個の残余インパルス応答とをもたらす（ここでＮは、ｎまたはｎ超として示されることがある）。

[0109]いくつかの例では、打切りインパルス応答は、各室内インパルス応答の全長さの４０パーセント未満を表す。

[0110]いくつかの例では、打切りインパルス応答は、１１１と１７，８３０との間のタップ範囲を含む。

[0111]いくつかの例では、Ｎ個の残余インパルス応答の各々は、複雑性を削減する共通の合成残余室内応答内に結合される。

[0112]いくつかの例では、各チャンネルフィルタの出力と、フィルタリングされた整列合成音声信号とをミックスすることは、左のスピーカー出力に関するミキシングの第１のセットと右のスピーカー出力に関するミキシングの第２のセットとを含む。

[0113]様々な例では、上記で説明したプロセス３８０の様々な例またはそれらの任意の結合の方法は、メモリおよび１つまたは複数のプロセッサを備えるデバイスと、本方法の各ステップを実施するための手段を備えた装置と、非一時的コンピュータ可読記憶媒体上に記憶された命令を実行することによって本方法の各ステップを実施する１つまたは複数のプロセッサとによって実施され得る。

[0114]その上、上記で説明した例のいずれかに記載される特定の特徴のいずれも、説明した技法の有益な例の中に組み合わされ得る。すなわち、特定の特徴のいずれも、一般に、本技法のすべての例に適用可能である。本技法の様々な例について説明した。

[0115]本開示で説明した技法は、ある場合には、可聴のＢＲＩＲセットにわたってサンプル１１１〜１７８３０だけを識別することができる。例示的な室内の容積からミキシング時間Ｔ_mp95を計算し、本技法は、次いで、５３．６ｍｓの後、すべてのＢＲＩＲに共通の残響の末尾を共有させることができ、１５２３２のサンプル長の共通の残響の末尾と、残留する２７０４サンプルのＨＲＴＦ＋反射インパルスとをもたらし、３ｍｓのクロスフェードがそれらの間に存在する。計算コスト削減（break down）に関して、以下の項目が到達され得る。

[0116]共通の残響の末尾：１０×６×ｌｏｇ₂（２×１５２３２／１０）。

[0117]残留するインパルス：２２×６×ｌｏｇ₂（２×４０９６）、１フレーム内でそれを行うために４０９６のＦＦＴを使用する。

[0118]追加の２２の加算。

[0119]その結果、最終の性能指数は、したがって、ほぼＣ_mod＝ｍａｘ（１００×（Ｃ_conv−Ｃ）／Ｃ_conv，０）＝８８．０に等しく、ここで

[0120]ここでＣ_convは最適化されていない実装（implementation）：

の推定であり、

[0121]Ｃは何らかの態様であり、２つの付加的な要素：

によって決定され得る。

[0122]したがって、いくつかの態様では、性能指数は、Ｃ_mod＝８７．３５。

[0123]Ｂ_n（ｚ）として示されるＢＲＩＲフィルタは、２つの関数ＢＴ_n（ｚ）とＢＲ_n（ｚ）とに分解され得、それらはそれぞれ、打切りＢＲＩＲフィルタと残響ＢＲＩＲフィルタとを示す。上記の部分（ａ）はこの打切りＢＲＩＲフィルタを指す一方で、上記の部分（ｂ）は残響ＢＲＩＲフィルタを指し得る。次いで、Ｂ_n（ｚ）はＢＴ_n（ｚ）＋（ｚ^-m＊ＢＲ_n（ｚ））に等しくし得、ここでｍは遅延を示す。したがって、出力信号Ｙ（ｚ）は、

として計算され得る。

[0124]プロセス３８０は、共通の合成の残響の末尾のセグメントを導出するためにＢＲ_n（ｚ）を解析し得、ここでこの共通のＢＲ（ｚ）は、チャンネル固有のＢＲ_n（ｚ）の代わりに適用され得る。この共通の（またはチャンネル全般の）合成ＢＲ（ｚ）が使用されるとき、Ｙ（ｚ）は、

として計算され得る。

[0125]例に応じて、本明細書で説明された方法のいずれものある行為またはイベントは、異なる順序で実行可能であり、追加されてもよいし、マージされてもよいし、全体的に除外されてもよい（たとえば、すべての説明された行為またはイベントが方法の実施に必要とは限らない）ことを理解されたい。その上、ある例では、行為またはイベントは、たとえば、マルチスレッド処理、割込み処理、または複数のプロセッサによって、順次ではなく、同時に実行されることがある。さらに、本開示のある態様は、わかりやすいように、単一のデバイス、モジュール、またはユニットによって実行されると説明されているが、本開示の技法は、デバイス、ユニット、またはモジュールの組合せによって実行されてよいことを理解されたい。

[0126]１つまたは複数の例では、説明された機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実施されてよい。ソフトウェアで実施される場合、これらの機能は、コンピュータ可読媒体上に１つまたは複数の命令またはコードとして記憶または送信され、ハードウェアベースの処理ユニットによって実行されてもよい。コンピュータ可読媒体は、たとえば、通信プロトコルに従って、ある場所から別の場所へのコンピュータプログラムの転送を支援する任意の媒体を含む、データ記憶媒体または通信媒体などの有形媒体に対応するコンピュータ可読記憶媒体を含み得る。

[0127]このようにして、コンピュータ可読媒体は、一般に、（１）非一時的である有形のコンピュータ可読記憶媒体または（２）信号もしくはキャリア波などの通信媒体に相当し得る。データ記憶媒体は、本開示で説明する技法の実装のために、命令、コードおよび／またはデータ構造を取り出すために１つもしくは複数のコンピュータまたは１つもしくは複数のプロセッサによってアクセスされ得る、任意の利用可能な媒体であり得る。コンピュータプログラム製品は、コンピュータ可読媒体を含んでもよい。

[0128]例として、それに限定されず、そのようなコンピュータ可読記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ（登録商標）、ＣＤ−ＲＯＭもしくは他の光ディスク記憶装置、磁気ディスク記憶装置もしくは他の磁気記憶デバイス、フラッシュメモリ、または命令またはデータ構造の形態で所望のプログラムコードを記憶するために使用可能であり、コンピュータによってアクセス可能な他の任意の媒体を備えることができる。さらに、いかなる接続もコンピュータ可読媒体と適切に呼ばれる。たとえば、命令が、ウェブサイト、サーバ、または他の遠隔ソースから、同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ）、または赤外線、無線、およびマイクロ波などのワイヤレス技術を使用して伝送される場合、同軸ケーブル、光ファイバケーブル、ツイストペア、ＤＳＬ、または赤外線、無線、マイクロ波などのワイヤレス技術は、媒体の定義に含まれる。

[0129]ただし、コンピュータ可読記憶媒体およびデータ記憶媒体は、接続、搬送波、信号、または他の一時的媒体を含まず、代わりに、非一時的な有形記憶媒体を対象とすることを理解されたい。本明細書で使用するディスク（disk）およびディスク（disc）は、コンパクトディスク（disc）（ＣＤ）、レーザーディスク（登録商標）（disc）、光ディスク（disc）、デジタル多用途ディスク（disc）（ＤＶＤ）、フロッピー（登録商標）ディスク（disk）およびｂｌｕ−ｒａｙ（登録商標）ディスク（disc）を含み、ディスク（disk）は、通常、データを磁気的に再生し、ディスク（disc）は、データをレーザーで光学的に再生する。上述の組合せもコンピュータ可読媒体の範囲内に含まれるべきである。

[0130]命令は、１つまたは複数のデジタルシグナルプロセッサ（ＤＳＰ）、汎用マイクロプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルロジックアレイ（ＦＰＧＡ）、または他の同等の統合された、もしくは個別の論理回路などの、１つまたは複数のプロセッサによって実行され得る。したがって、「プロセッサ」という用語は、本明細書において、前述の構造のうちの任意のものまたは本明細書に記載される技法の実施のために適当な任意の他の構造を参照し得る。加えて、いくつかの態様では、本明細書に記載される機能性は、符号化および復号のために構成され、または組み合わされたコーデックに組み込まれる、専用のハードウェア内および／またはソフトウェアモジュール内で提供され得る。また、技法は、１つまたは複数の回路または論理素子内で完全に実施されてよい。

[0131]本開示の技法は、ワイヤレスハンドセット、集積回路（ＩＣ）またはＩＣのセット（たとえば、チップセット）を含む、多種多様なデバイスまたは装置で実装され得る。様々な構成要素、モジュール、またはユニットは、開示された技法を実行するように構成されるデバイスの機能上の態様を強調するために、本開示に記載されるが、必ずしも異なるハードウェアユニットによる実現を求めるとは限らない。むしろ、上記で説明したように、様々なユニットは、コーデックハードウェアユニットの中で組み合わされ、または、上記で説明した１つまたは複数のプロセッサを含む、適切なソフトウェアおよび／またはファームウェアと一緒に相互作用するハードウェアユニットの集合によって提供され得る。

[0132]本技法の様々な実施形態が説明された。これらおよび他の実施形態は以下の特許請求の範囲内に入る。

[0132]本技法の様々な実施形態が説明された。これらおよび他の実施形態は以下の特許請求の範囲内に入る。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
［Ｃ１］
バイノーラル音声レンダリングの方法であって、
複数のバイノーラル室内インパルス応答フィルタの各々に関する複数のセグメントを決定すること、ここにおいて、前記複数のバイノーラル室内インパルス応答フィルタの各々は、残余室内応答セグメントと、フィルタ応答が音場内の位置に依存する少なくとも１つの方向依存性セグメントとを備える、と、
複数の変換されたバイノーラル室内インパルス応答フィルタを生成するために、複数の階層要素の領域に対応する領域に、前記複数のバイノーラル室内インパルス応答フィルタのうちの少なくとも１つの方向依存性セグメントの各々を変換すること、ここにおいて、前記複数の階層要素は前記音場を記述する、と、
前記音場をレンダリングするために、前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との高速畳み込みを実施することと、
を備える、方法。
［Ｃ２］
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施することが、前記バイノーラル室内インパルス応答フィルタの前記残余室内応答セグメントと前記複数の階層要素との結合の高速畳み込みを実施することを備える、Ｃ１に記載の方法。
［Ｃ３］
前記複数の変換されたバイノーラル室内インパルス応答フィルタが、左の変換されたバイノーラル室内インパルス応答フィルタと右の変換されたバイノーラル室内インパルス応答フィルタとを備え、
前記複数の変換されたバイノーラル室内インパルス応答フィルタの各々が、音源から直接放射する圧力波に対するインパルス応答を表す頭部伝達関数セグメントを備え、前記方法が、
前記複数のバイノーラル室内インパルス応答フィルタのうちの１つに関する結合された頭部伝達関数セグメントを作成するために、前記左の変換されたバイノーラル室内インパルス応答フィルタの頭部伝達関数セグメントと前記右の変換されたバイノーラル室内インパルス応答フィルタの頭部伝達関数セグメントとを結合することをさらに備え、
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施することが、前記音場をレンダリングするために、前記結合された頭部伝達関数セグメントと前記複数の階層要素のうちの階層要素との高速畳み込みを実施することを備える、Ｃ１に記載の方法。
［Ｃ４］
前記左の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントと前記右の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントとを結合することが、前記複数のバイノーラル室内インパルス応答フィルタのうちの前記１つに関する頭部伝達関数セグメントを近似する最小位相フィルタを生成するために、前記左の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントと前記右のバイノーラル室内インパルス応答の変換されたフィルタの前記頭部伝達関数セグメントとのうちの少なくとも一方に、最小位相再構成を適用することを備え、
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施することが、前記音場をレンダリングするために、前記最小位相フィルタと前記複数の階層要素のうちの前記階層要素との高速畳み込みを実施することを備える、Ｃ３に記載の方法。
［Ｃ５］
前記左の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントと前記右の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントとを結合することが、前記複数の変換されたバイノーラル室内インパルス応答フィルタのうちの前記１つに関する頭部伝達関数セグメントを近似する最小位相フィルタを生成するため、および残余位相フィルタを作成するために、前記左の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントと前記右の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントとのうちの少なくとも一方に、最小位相再構成を適用することを備え、前記方法が、
前記残余位相フィルタから両耳間時間差を推定することをさらに備え、
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施することが、前記音場を両耳にレンダリングするために、畳み込みを作成して前記両耳間時間差を適用するために、前記最小位相フィルタと前記複数の階層要素のうちの前記階層要素との前記高速畳み込みを実施することを備える、Ｃ３に記載の方法。
［Ｃ６］
前記複数の変換されたバイノーラル室内インパルス応答フィルタが、左の変換されたバイノーラル室内インパルス応答フィルタと右の変換されたバイノーラル室内インパルス応答フィルタとを備え、
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施することが、前記左のバイノーラル室内インパルス応答フィルタまたは前記右のバイノーラル室内インパルス応答フィルタのいずれか一方のみと前記複数の階層要素との高速畳み込みを実施することを備える、Ｃ１に記載の方法。
［Ｃ７］
前記複数のバイノーラル室内インパルス応答フィルタの各々が、インパルスに起因する応答サンプルを含まない初期静止位相を備え、前記方法が、
前記複数のバイノーラル室内インパルス応答フィルタのうちの任意の応答サンプルの最早の開始を決定することをさらに備え、前記最早の開始が前記複数のバイノーラル室内インパルス応答フィルタに関する共通の初期静止位相を決定し、
前記複数のバイノーラル室内インパルス応答フィルタの各々に関する前記複数のセグメントを決定することが、前記共通の初期静止位相の一部である前記複数のバイノーラル室内インパルス応答フィルタのサンプルを含まないように、前記複数のバイノーラル室内インパルス応答フィルタの前記少なくとも１つの方向依存性セグメントを決定することを備える、Ｃ１に記載の方法。
［Ｃ８］
前記複数のバイノーラル室内インパルス応答フィルタの各々に関する前記複数のセグメントが、残余室内応答セグメントを備え、前記方法が、
共通の残余室内応答セグメントを作成するために、前記複数のバイノーラル室内インパルス応答フィルタの各々に関する前記残余室内応答セグメントを結合することと、
前記複数のバイノーラル室内インパルス応答フィルタの各々に関する前記複数のセグメントの前記残余室内応答セグメントと前記複数の階層要素との高速畳み込みを実施することなく音場に対する室内応答をレンダリングするために、前記共通の残余室内応答セグメントと前記複数の階層要素との高速畳み込みを実施することと、
をさらに備える、Ｃ１に記載の方法。
［Ｃ９］
前記共通の残余室内応答セグメントと前記複数の階層要素との前記高速畳み込みを実施することが、前記音場に対する前記残余室内応答をレンダリングするために、前記複数の階層要素のうちの最高次数の要素を有する前記共通の残余室内応答セグメントだけの高速畳み込みを実施することを備える、Ｃ８に記載の方法。
［Ｃ１０］
前記音場をレンダリングするための前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みが信号を作成し、前記方法が、
音場に対する遅延残余室内応答を作成するために、前記音場に対する前記室内応答をゼロパディングすることと、
前記音場をレンダリングするために、前記音場に対する前記遅延室内応答と前記信号とを結合することと、
をさらに備える、Ｃ８に記載の方法。
［Ｃ１１］
フィルタ行列を生成するために、前記複数の変換されたバイノーラル室内インパルス応答フィルタを合計することをさらに備え、
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施することが、前記音場をレンダリングするために、前記フィルタ行列と前記複数の階層要素との高速畳み込みを実施することを備える、Ｃ１に記載の方法。
［Ｃ１２］
前記複数の階層要素が、球面調和係数を備える、Ｃ１に記載の方法。
［Ｃ１３］
前記複数の階層要素が、高次アンビソニックスを備える、Ｃ１に記載の方法。
［Ｃ１４］
１つまたは複数のプロセッサを備えるデバイスであって、
複数のバイノーラル室内インパルス応答フィルタの各々に関する複数のセグメントを決定すること、ここにおいて、前記複数のバイノーラル室内インパルス応答フィルタの各々は、残余室内応答セグメントと、フィルタ応答が音場内の位置に依存する少なくとも１つの方向依存性セグメントとを備える、と、
複数の変換されたバイノーラル室内インパルス応答フィルタを生成するために、複数の階層要素の領域に対応する領域に、前記複数のバイノーラル室内インパルス応答フィルタのうちの少なくとも１つの方向依存性セグメントの各々を変換すること、ここにおいて、前記複数の階層要素は前記音場を記述する、と、
前記音場をレンダリングするために、前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との高速畳み込みを実施することと、
を行うように構成される、デバイス。
［Ｃ１５］
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施するために、前記１つまたは複数のプロセッサが、前記バイノーラル室内インパルス応答フィルタの前記残余室内応答セグメントと前記複数の階層要素との結合の高速畳み込みを実施するようにさらに構成される、Ｃ１４に記載のデバイス。
［Ｃ１６］
前記複数の変換されたバイノーラル室内インパルス応答フィルタが、左の変換されたバイノーラル室内インパルス応答フィルタと右の変換されたバイノーラル室内インパルス応答フィルタとを備え、
前記複数の変換されたバイノーラル室内インパルス応答フィルタの各々が、音源から直接放射する圧力波に対するインパルス応答を表す頭部伝達関数セグメントを備え、
前記１つまたは複数のプロセッサが、前記複数のバイノーラル室内インパルス応答フィルタのうちの１つに関する結合された頭部伝達関数セグメントを作成するために、前記左の変換されたバイノーラル室内インパルス応答フィルタの頭部伝達関数セグメントと前記右の変換されたバイノーラル室内インパルス応答フィルタの頭部伝達関数セグメントとを結合するようにさらに構成され、
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施するために、前記１つまたは複数のプロセッサが、前記音場をレンダリングするために、前記結合された頭部伝達関数セグメントと前記複数の階層要素のうちの階層要素との高速畳み込みを実施するようにさらに構成される、Ｃ１４に記載のデバイス。
［Ｃ１７］
前記左の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントと前記右の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントとを結合するために、前記１つまたは複数のプロセッサが、前記複数のバイノーラル室内インパルス応答フィルタのうちの前記１つに関する頭部伝達関数セグメントを近似する最小位相フィルタを生成するために、前記左の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントと前記右のバイノーラル室内インパルス応答の変換されたフィルタの前記頭部伝達関数セグメントとのうちの少なくとも一方に、最小位相再構成を適用するようにさらに構成され、
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施するために、前記１つまたは複数のプロセッサが、前記音場をレンダリングするために、前記最小位相フィルタと前記複数の階層要素のうちの前記階層要素との高速畳み込みを実施するようにさらに構成される、Ｃ１６に記載のデバイス。
［Ｃ１８］
前記左の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントと前記右の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントとを結合するために、前記１つまたは複数のプロセッサが、前記複数の変換されたバイノーラル室内インパルス応答フィルタのうちの前記１つに関する頭部伝達関数セグメントを近似する最小位相フィルタを生成するため、および残余位相フィルタを作成するために、前記左の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントと前記右の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントとのうちの少なくとも一方に、最小位相再構成を適用するようにさらに構成され、
前記１つまたは複数のプロセッサが、前記残余位相フィルタから両耳間時間差を推定するようにさらに構成され、
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施するために、前記１つまたは複数のプロセッサが、前記音場を両耳にレンダリングするために、畳み込みを作成して前記両耳間時間差を適用するために、前記最小位相フィルタと前記複数の階層要素のうちの前記階層要素との前記高速畳み込みを実施するようにさらに構成される、Ｃ１６に記載のデバイス。
［Ｃ１９］
前記複数の変換されたバイノーラル室内インパルス応答フィルタが、左の変換されたバイノーラル室内インパルス応答フィルタと右の変換されたバイノーラル室内インパルス応答フィルタとを備え、
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施するために、前記１つまたは複数のプロセッサが、前記左のバイノーラル室内インパルス応答フィルタまたは前記右のバイノーラル室内インパルス応答フィルタのいずれかのみと前記複数の階層要素との高速畳み込みを実施するようにさらに構成される、Ｃ１４に記載のデバイス。
［Ｃ２０］
前記複数のバイノーラル室内インパルス応答フィルタの各々が、インパルスに起因する応答サンプルを含まない初期静止位相を備え、
前記１つまたは複数のプロセッサが、前記複数のバイノーラル室内インパルス応答フィルタのうちの任意の応答サンプルの最早の開始を決定するようにさらに構成され、前記最早の開始が前記複数のバイノーラル室内インパルス応答フィルタに関する共通の初期静止位相を決定し、
前記複数のバイノーラル室内インパルス応答フィルタの各々に関する前記複数のセグメントを決定するために、前記１つまたは複数のプロセッサが、前記共通の初期静止位相の一部である前記複数のバイノーラル室内インパルス応答フィルタのサンプルを含まないように、前記複数のバイノーラル室内インパルス応答フィルタのうちの前記少なくとも１つの方向依存性セグメントを決定するようにさらに構成される、Ｃ１４に記載のデバイス。
［Ｃ２１］
前記複数のバイノーラル室内インパルス応答フィルタの各々に関する前記複数のセグメントが、残余室内応答セグメントを備え、
前記１つまたは複数のプロセッサが、共通の残余室内応答セグメントを作成するために、前記複数のバイノーラル室内インパルス応答フィルタの各々に関する前記残余室内応答セグメントを結合するようにさらに構成され、
前記１つまたは複数のプロセッサが、前記複数のバイノーラル室内インパルス応答フィルタの各々に関する前記複数のセグメントの前記残余室内応答セグメントと前記複数の階層要素との高速畳み込みを実施することなく音場に対する室内応答をレンダリングするために、前記共通の残余室内応答セグメントと前記複数の階層要素との高速畳み込みを実施するようにさらに構成される、Ｃ１４に記載のデバイス。
［Ｃ２２］
前記共通の残余室内応答セグメントと前記複数の階層要素との前記高速畳み込みを実施するために、前記１つまたは複数のプロセッサが、前記音場に対する前記残余室内応答をレンダリングするために、前記複数の階層要素のうちの最高次数の要素を有する前記共通の残余室内応答セグメントだけの高速畳み込みを実施するようにさらに構成される、Ｃ２１に記載のデバイス。
［Ｃ２３］
前記音場をレンダリングするための、前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みが信号を作成し、
前記１つまたは複数のプロセッサが、
音場に対する遅延残余室内応答を作成するために、前記音場に対する前記室内応答をゼロパディングすることと、
前記音場をレンダリングするために、前記音場に対する前記遅延室内応答と前記信号とを結合することと、
を行うようにさらに構成される、Ｃ２１に記載のデバイス。
［Ｃ２４］
前記１つまたは複数のプロセッサが、フィルタ行列を生成するために、前記複数の変換されたバイノーラル室内インパルス応答フィルタを合計するようにさらに構成され、
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施するために、前記１つまたは複数のプロセッサが、前記音場をレンダリングするために、前記フィルタ行列と前記複数の階層要素との高速畳み込みを実施するようにさらに構成される、Ｃ１４に記載のデバイス。
［Ｃ２５］
前記複数の階層要素が、球面調和係数を備える、Ｃ１４に記載のデバイス。
［Ｃ２６］
前記複数の階層要素が、高次アンビソニックスを備える、Ｃ１４に記載のデバイス。
［Ｃ２７］
複数のバイノーラル室内インパルス応答フィルタの各々に関する複数のセグメントを決定するための手段、ここにおいて、前記複数のバイノーラル室内インパルス応答フィルタの各々は、残余室内応答セグメントと、フィルタ応答が音場内の位置に依存する少なくとも１つの方向依存性セグメントとを備える、と、
複数の変換されたバイノーラル室内インパルス応答フィルタを生成するために、複数の階層要素の領域に対応する領域に、前記複数のバイノーラル室内インパルス応答フィルタのうちの少なくとも１つの方向依存性セグメントの各々を変換するための手段、ここにおいて、前記複数の階層要素は前記音場を記述する、と、
前記音場をレンダリングするために、前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との高速畳み込みを実施するための手段と、
を備える、装置。
［Ｃ２８］
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施するための前記手段が、前記バイノーラル室内インパルス応答フィルタの前記残余室内応答セグメントと前記複数の階層要素との結合の高速畳み込みを実施するための手段を備える、Ｃ２７に記載の装置。
［Ｃ２９］
前記複数の変換されたバイノーラル室内インパルス応答フィルタが、左の変換されたバイノーラル室内インパルス応答フィルタと右の変換されたバイノーラル室内インパルス応答フィルタとを備え、
前記複数の変換されたバイノーラル室内インパルス応答フィルタの各々が、音源から直接放射する圧力波に対するインパルス応答を表す頭部伝達関数セグメントを備え、前記装置が、
前記複数のバイノーラル室内インパルス応答フィルタのうちの１つに関する結合された頭部伝達関数セグメントを作成するために、前記左の変換されたバイノーラル室内インパルス応答フィルタの頭部伝達関数セグメントと前記右の変換されたバイノーラル室内インパルス応答フィルタの頭部伝達関数セグメントとを結合するための手段をさらに備え、
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施するための前記手段が、前記音場をレンダリングするために、前記結合された頭部伝達関数セグメントと前記複数の階層要素のうちの階層要素との高速畳み込みを実施するための手段を備える、Ｃ２７に記載の装置。
［Ｃ３０］
前記左の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントと前記右の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントとを結合するための前記手段が、前記複数のバイノーラル室内インパルス応答フィルタのうちの前記１つに関する頭部伝達関数セグメントを近似する最小位相フィルタを生成するために、前記左の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントと前記右のバイノーラル室内インパルス応答の変換されたフィルタの前記頭部伝達関数セグメントとのうちの少なくとも一方に、最小位相再構成を適用するための手段を備え、
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施するための前記手段が、前記音場をレンダリングするために、前記最小位相フィルタと前記複数の階層要素のうちの前記階層要素との高速畳み込みを実施するための手段を備える、Ｃ２９に記載の装置。
［Ｃ３１］
前記左の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントと前記右の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントとを結合するための前記手段が、前記複数の変換されたバイノーラル室内インパルス応答フィルタのうちの前記１つに関する頭部伝達関数セグメントを近似する最小位相フィルタを生成するため、および残余位相フィルタを作成するために、前記左の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントと前記右の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントとのうちの少なくとも一方に、最小位相再構成を適用するための手段を備え、前記装置が、
前記残余位相フィルタから両耳間時間差を推定するための手段をさらに備え、
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施するための前記手段が、前記音場を両耳にレンダリングするために、畳み込みを作成して前記両耳間時間差を適用するために、前記最小位相フィルタと前記複数の階層要素のうちの前記階層要素との前記高速畳み込みを実施するための手段を備える、Ｃ２９に記載の装置。
［Ｃ３２］
前記複数の変換されたバイノーラル室内インパルス応答フィルタが、左の変換されたバイノーラル室内インパルス応答フィルタと右の変換されたバイノーラル室内インパルス応答フィルタとを備え、
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施するための前記手段が、前記左のバイノーラル室内インパルス応答フィルタまたは前記右のバイノーラル室内インパルス応答フィルタのいずれかのみと前記複数の階層要素との高速畳み込みを実施するための手段を備える、Ｃ２７に記載の装置。
［Ｃ３３］
前記複数のバイノーラル室内インパルス応答フィルタの各々が、インパルスに起因する応答サンプルを含まない初期静止位相を備え、前記装置が、
前記複数のバイノーラル室内インパルス応答フィルタのうちの任意の応答サンプルの最早開始を決定するための手段をさらに備え、前記最早開始が前記複数のバイノーラル室内インパルス応答フィルタに関する共通の初期静止位相を決定し、
前記複数のバイノーラル室内インパルス応答フィルタの各々に関する前記複数のセグメントを決定するための前記手段が、前記共通の初期静止位相の一部である前記複数のバイノーラル室内インパルス応答フィルタのサンプルを含まないように、前記複数のバイノーラル室内インパルス応答フィルタのうちの前記少なくとも１つの方向依存性セグメントを決定するための手段を備える、Ｃ２７に記載の装置。
［Ｃ３４］
前記複数のバイノーラル室内インパルス応答フィルタの各々に関する前記複数のセグメントが、残余室内応答セグメントを備え、前記装置が、
共通の残余室内応答セグメントを作成するために、前記複数のバイノーラル室内インパルス応答フィルタの各々に関する前記残余室内応答セグメントを結合するための手段と、
前記複数のバイノーラル室内インパルス応答フィルタの各々に関する前記複数のセグメントの前記残余室内応答セグメントと前記複数の階層要素との高速畳み込みを実施することなく音場に対する室内応答をレンダリングするために、前記共通の残余室内応答セグメントと前記複数の階層要素との高速畳み込みを実施するための手段と、
をさらに備える前記装置をさらに備える、Ｃ２７に記載の装置。
［Ｃ３５］
前記共通の残余室内応答セグメントと前記複数の階層要素との前記高速畳み込みを実施するための前記手段が、前記音場に対する前記残余室内応答をレンダリングするために、前記複数の階層要素のうちの最高次数の要素を有する前記共通の残余室内応答セグメントだけの高速畳み込みを実施するための手段を備える、Ｃ３４に記載の装置。
［Ｃ３６］
前記音場をレンダリングするための前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みが信号を作成し、前記装置が、
音場に対する遅延残余室内応答を作成するために、前記音場に対する前記室内応答をゼロパディングするための手段と、
前記音場をレンダリングするために、前記音場に対する前記遅延室内応答と前記信号とを結合するための手段と、
をさらに備える、Ｃ３４に記載の装置。
［Ｃ３７］
フィルタ行列を生成するために、前記複数の変換されたバイノーラル室内インパルス応答フィルタを合計するための手段をさらに備え、
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施するための前記手段が、前記音場をレンダリングするために、前記フィルタ行列と前記複数の階層要素との高速畳み込みを実施するための手段を備える、Ｃ２７に記載の装置。
［Ｃ３８］
前記複数の階層要素が、球面調和係数を備える、Ｃ２７に記載の装置。
［Ｃ３９］
前記複数の階層要素が、高次アンビソニックスを備える、Ｃ２７に記載の装置。
［Ｃ４０］
実行されると、１つまたは複数のプロセッサに、
複数のバイノーラル室内インパルス応答フィルタの各々に関する複数のセグメントを決定すること、ここにおいて、前記複数のバイノーラル室内インパルス応答フィルタの各々は、残余室内応答セグメントと、フィルタ応答が音場内の位置に依存する少なくとも１つの方向依存性セグメントとを備える、と、
複数の変換されたバイノーラル室内インパルス応答フィルタを生成するために、複数の階層要素の領域に対応する領域に、前記複数のバイノーラル室内インパルス応答フィルタのうちの少なくとも１つの方向依存性セグメントの各々を変換すること、ここにおいて、前記複数の階層要素は前記音場を記述する、と、
前記音場をレンダリングするために、前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との高速畳み込みを実施することと、
を行わせる命令をその上に記憶した、非一時的コンピュータ可読記憶媒体。

Claims

バイノーラル音声レンダリングの方法であって、
複数のバイノーラル室内インパルス応答フィルタの各々に関する複数のセグメントを決定すること、ここにおいて、前記複数のバイノーラル室内インパルス応答フィルタの各々は、残余室内応答セグメントと、フィルタ応答が音場内の位置に依存する少なくとも１つの方向依存性セグメントとを備える、と、
複数の変換されたバイノーラル室内インパルス応答フィルタを生成するために、複数の階層要素の領域に対応する領域に、前記複数のバイノーラル室内インパルス応答フィルタのうちの少なくとも１つの方向依存性セグメントの各々を変換すること、ここにおいて、前記複数の階層要素は前記音場を記述する、と、
前記音場をレンダリングするために、前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との高速畳み込みを実施することと、
を備える、方法。
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施することが、前記バイノーラル室内インパルス応答フィルタの前記残余室内応答セグメントと前記複数の階層要素との結合の高速畳み込みを実施することを備える、請求項１に記載の方法。
前記複数の変換されたバイノーラル室内インパルス応答フィルタが、左の変換されたバイノーラル室内インパルス応答フィルタと右の変換されたバイノーラル室内インパルス応答フィルタとを備え、
前記複数の変換されたバイノーラル室内インパルス応答フィルタの各々が、音源から直接放射する圧力波に対するインパルス応答を表す頭部伝達関数セグメントを備え、前記方法が、
前記複数のバイノーラル室内インパルス応答フィルタのうちの１つに関する結合された頭部伝達関数セグメントを作成するために、前記左の変換されたバイノーラル室内インパルス応答フィルタの頭部伝達関数セグメントと前記右の変換されたバイノーラル室内インパルス応答フィルタの頭部伝達関数セグメントとを結合することをさらに備え、
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施することが、前記音場をレンダリングするために、前記結合された頭部伝達関数セグメントと前記複数の階層要素のうちの階層要素との高速畳み込みを実施することを備える、請求項１に記載の方法。
前記左の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントと前記右の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントとを結合することが、前記複数のバイノーラル室内インパルス応答フィルタのうちの前記１つに関する頭部伝達関数セグメントを近似する最小位相フィルタを生成するために、前記左の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントと前記右のバイノーラル室内インパルス応答の変換されたフィルタの前記頭部伝達関数セグメントとのうちの少なくとも一方に、最小位相再構成を適用することを備え、
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施することが、前記音場をレンダリングするために、前記最小位相フィルタと前記複数の階層要素のうちの前記階層要素との高速畳み込みを実施することを備える、請求項３に記載の方法。
前記左の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントと前記右の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントとを結合することが、前記複数の変換されたバイノーラル室内インパルス応答フィルタのうちの前記１つに関する頭部伝達関数セグメントを近似する最小位相フィルタを生成するため、および残余位相フィルタを作成するために、前記左の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントと前記右の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントとのうちの少なくとも一方に、最小位相再構成を適用することを備え、前記方法が、
前記残余位相フィルタから両耳間時間差を推定することをさらに備え、
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施することが、前記音場を両耳にレンダリングするために、畳み込みを作成して前記両耳間時間差を適用するために、前記最小位相フィルタと前記複数の階層要素のうちの前記階層要素との前記高速畳み込みを実施することを備える、請求項３に記載の方法。
前記複数の変換されたバイノーラル室内インパルス応答フィルタが、左の変換されたバイノーラル室内インパルス応答フィルタと右の変換されたバイノーラル室内インパルス応答フィルタとを備え、
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施することが、前記左のバイノーラル室内インパルス応答フィルタまたは前記右のバイノーラル室内インパルス応答フィルタのいずれか一方のみと前記複数の階層要素との高速畳み込みを実施することを備える、請求項１に記載の方法。
前記複数のバイノーラル室内インパルス応答フィルタの各々が、インパルスに起因する応答サンプルを含まない初期静止位相を備え、前記方法が、
前記複数のバイノーラル室内インパルス応答フィルタのうちの任意の応答サンプルの最早の開始を決定することをさらに備え、前記最早の開始が前記複数のバイノーラル室内インパルス応答フィルタに関する共通の初期静止位相を決定し、
前記複数のバイノーラル室内インパルス応答フィルタの各々に関する前記複数のセグメントを決定することが、前記共通の初期静止位相の一部である前記複数のバイノーラル室内インパルス応答フィルタのサンプルを含まないように、前記複数のバイノーラル室内インパルス応答フィルタの前記少なくとも１つの方向依存性セグメントを決定することを備える、請求項１に記載の方法。
前記複数のバイノーラル室内インパルス応答フィルタの各々に関する前記複数のセグメントが、残余室内応答セグメントを備え、前記方法が、
共通の残余室内応答セグメントを作成するために、前記複数のバイノーラル室内インパルス応答フィルタの各々に関する前記残余室内応答セグメントを結合することと、
前記複数のバイノーラル室内インパルス応答フィルタの各々に関する前記複数のセグメントの前記残余室内応答セグメントと前記複数の階層要素との高速畳み込みを実施することなく音場に対する室内応答をレンダリングするために、前記共通の残余室内応答セグメントと前記複数の階層要素との高速畳み込みを実施することと、
をさらに備える、請求項１に記載の方法。
前記共通の残余室内応答セグメントと前記複数の階層要素との前記高速畳み込みを実施することが、前記音場に対する前記残余室内応答をレンダリングするために、前記複数の階層要素のうちの最高次数の要素を有する前記共通の残余室内応答セグメントだけの高速畳み込みを実施することを備える、請求項８に記載の方法。
前記音場をレンダリングするための前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みが信号を作成し、前記方法が、
音場に対する遅延残余室内応答を作成するために、前記音場に対する前記室内応答をゼロパディングすることと、
前記音場をレンダリングするために、前記音場に対する前記遅延室内応答と前記信号とを結合することと、
をさらに備える、請求項８に記載の方法。
フィルタ行列を生成するために、前記複数の変換されたバイノーラル室内インパルス応答フィルタを合計することをさらに備え、
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施することが、前記音場をレンダリングするために、前記フィルタ行列と前記複数の階層要素との高速畳み込みを実施することを備える、請求項１に記載の方法。
前記複数の階層要素が、球面調和係数を備える、請求項１に記載の方法。
前記複数の階層要素が、高次アンビソニックスを備える、請求項１に記載の方法。
１つまたは複数のプロセッサを備えるデバイスであって、
複数のバイノーラル室内インパルス応答フィルタの各々に関する複数のセグメントを決定すること、ここにおいて、前記複数のバイノーラル室内インパルス応答フィルタの各々は、残余室内応答セグメントと、フィルタ応答が音場内の位置に依存する少なくとも１つの方向依存性セグメントとを備える、と、
複数の変換されたバイノーラル室内インパルス応答フィルタを生成するために、複数の階層要素の領域に対応する領域に、前記複数のバイノーラル室内インパルス応答フィルタのうちの少なくとも１つの方向依存性セグメントの各々を変換すること、ここにおいて、前記複数の階層要素は前記音場を記述する、と、
前記音場をレンダリングするために、前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との高速畳み込みを実施することと、
を行うように構成される、デバイス。
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施するために、前記１つまたは複数のプロセッサが、前記バイノーラル室内インパルス応答フィルタの前記残余室内応答セグメントと前記複数の階層要素との結合の高速畳み込みを実施するようにさらに構成される、請求項１４に記載のデバイス。
前記複数の変換されたバイノーラル室内インパルス応答フィルタが、左の変換されたバイノーラル室内インパルス応答フィルタと右の変換されたバイノーラル室内インパルス応答フィルタとを備え、
前記複数の変換されたバイノーラル室内インパルス応答フィルタの各々が、音源から直接放射する圧力波に対するインパルス応答を表す頭部伝達関数セグメントを備え、
前記１つまたは複数のプロセッサが、前記複数のバイノーラル室内インパルス応答フィルタのうちの１つに関する結合された頭部伝達関数セグメントを作成するために、前記左の変換されたバイノーラル室内インパルス応答フィルタの頭部伝達関数セグメントと前記右の変換されたバイノーラル室内インパルス応答フィルタの頭部伝達関数セグメントとを結合するようにさらに構成され、
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施するために、前記１つまたは複数のプロセッサが、前記音場をレンダリングするために、前記結合された頭部伝達関数セグメントと前記複数の階層要素のうちの階層要素との高速畳み込みを実施するようにさらに構成される、請求項１４に記載のデバイス。
前記左の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントと前記右の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントとを結合するために、前記１つまたは複数のプロセッサが、前記複数のバイノーラル室内インパルス応答フィルタのうちの前記１つに関する頭部伝達関数セグメントを近似する最小位相フィルタを生成するために、前記左の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントと前記右のバイノーラル室内インパルス応答の変換されたフィルタの前記頭部伝達関数セグメントとのうちの少なくとも一方に、最小位相再構成を適用するようにさらに構成され、
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施するために、前記１つまたは複数のプロセッサが、前記音場をレンダリングするために、前記最小位相フィルタと前記複数の階層要素のうちの前記階層要素との高速畳み込みを実施するようにさらに構成される、請求項１６に記載のデバイス。
前記左の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントと前記右の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントとを結合するために、前記１つまたは複数のプロセッサが、前記複数の変換されたバイノーラル室内インパルス応答フィルタのうちの前記１つに関する頭部伝達関数セグメントを近似する最小位相フィルタを生成するため、および残余位相フィルタを作成するために、前記左の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントと前記右の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントとのうちの少なくとも一方に、最小位相再構成を適用するようにさらに構成され、
前記１つまたは複数のプロセッサが、前記残余位相フィルタから両耳間時間差を推定するようにさらに構成され、
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施するために、前記１つまたは複数のプロセッサが、前記音場を両耳にレンダリングするために、畳み込みを作成して前記両耳間時間差を適用するために、前記最小位相フィルタと前記複数の階層要素のうちの前記階層要素との前記高速畳み込みを実施するようにさらに構成される、請求項１６に記載のデバイス。
前記複数の変換されたバイノーラル室内インパルス応答フィルタが、左の変換されたバイノーラル室内インパルス応答フィルタと右の変換されたバイノーラル室内インパルス応答フィルタとを備え、
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施するために、前記１つまたは複数のプロセッサが、前記左のバイノーラル室内インパルス応答フィルタまたは前記右のバイノーラル室内インパルス応答フィルタのいずれかのみと前記複数の階層要素との高速畳み込みを実施するようにさらに構成される、請求項１４に記載のデバイス。
前記複数のバイノーラル室内インパルス応答フィルタの各々が、インパルスに起因する応答サンプルを含まない初期静止位相を備え、
前記１つまたは複数のプロセッサが、前記複数のバイノーラル室内インパルス応答フィルタのうちの任意の応答サンプルの最早の開始を決定するようにさらに構成され、前記最早の開始が前記複数のバイノーラル室内インパルス応答フィルタに関する共通の初期静止位相を決定し、
前記複数のバイノーラル室内インパルス応答フィルタの各々に関する前記複数のセグメントを決定するために、前記１つまたは複数のプロセッサが、前記共通の初期静止位相の一部である前記複数のバイノーラル室内インパルス応答フィルタのサンプルを含まないように、前記複数のバイノーラル室内インパルス応答フィルタのうちの前記少なくとも１つの方向依存性セグメントを決定するようにさらに構成される、請求項１４に記載のデバイス。
前記複数のバイノーラル室内インパルス応答フィルタの各々に関する前記複数のセグメントが、残余室内応答セグメントを備え、
前記１つまたは複数のプロセッサが、共通の残余室内応答セグメントを作成するために、前記複数のバイノーラル室内インパルス応答フィルタの各々に関する前記残余室内応答セグメントを結合するようにさらに構成され、
前記１つまたは複数のプロセッサが、前記複数のバイノーラル室内インパルス応答フィルタの各々に関する前記複数のセグメントの前記残余室内応答セグメントと前記複数の階層要素との高速畳み込みを実施することなく音場に対する室内応答をレンダリングするために、前記共通の残余室内応答セグメントと前記複数の階層要素との高速畳み込みを実施するようにさらに構成される、請求項１４に記載のデバイス。
前記共通の残余室内応答セグメントと前記複数の階層要素との前記高速畳み込みを実施するために、前記１つまたは複数のプロセッサが、前記音場に対する前記残余室内応答をレンダリングするために、前記複数の階層要素のうちの最高次数の要素を有する前記共通の残余室内応答セグメントだけの高速畳み込みを実施するようにさらに構成される、請求項２１に記載のデバイス。
前記音場をレンダリングするための、前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みが信号を作成し、
前記１つまたは複数のプロセッサが、
音場に対する遅延残余室内応答を作成するために、前記音場に対する前記室内応答をゼロパディングすることと、
前記音場をレンダリングするために、前記音場に対する前記遅延室内応答と前記信号とを結合することと、
を行うようにさらに構成される、請求項２１に記載のデバイス。
前記１つまたは複数のプロセッサが、フィルタ行列を生成するために、前記複数の変換されたバイノーラル室内インパルス応答フィルタを合計するようにさらに構成され、
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施するために、前記１つまたは複数のプロセッサが、前記音場をレンダリングするために、前記フィルタ行列と前記複数の階層要素との高速畳み込みを実施するようにさらに構成される、請求項１４に記載のデバイス。
前記複数の階層要素が、球面調和係数を備える、請求項１４に記載のデバイス。
前記複数の階層要素が、高次アンビソニックスを備える、請求項１４に記載のデバイス。
複数のバイノーラル室内インパルス応答フィルタの各々に関する複数のセグメントを決定するための手段、ここにおいて、前記複数のバイノーラル室内インパルス応答フィルタの各々は、残余室内応答セグメントと、フィルタ応答が音場内の位置に依存する少なくとも１つの方向依存性セグメントとを備える、と、
複数の変換されたバイノーラル室内インパルス応答フィルタを生成するために、複数の階層要素の領域に対応する領域に、前記複数のバイノーラル室内インパルス応答フィルタのうちの少なくとも１つの方向依存性セグメントの各々を変換するための手段、ここにおいて、前記複数の階層要素は前記音場を記述する、と、
前記音場をレンダリングするために、前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との高速畳み込みを実施するための手段と、
を備える、装置。
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施するための前記手段が、前記バイノーラル室内インパルス応答フィルタの前記残余室内応答セグメントと前記複数の階層要素との結合の高速畳み込みを実施するための手段を備える、請求項２７に記載の装置。
前記複数の変換されたバイノーラル室内インパルス応答フィルタが、左の変換されたバイノーラル室内インパルス応答フィルタと右の変換されたバイノーラル室内インパルス応答フィルタとを備え、
前記複数の変換されたバイノーラル室内インパルス応答フィルタの各々が、音源から直接放射する圧力波に対するインパルス応答を表す頭部伝達関数セグメントを備え、前記装置が、
前記複数のバイノーラル室内インパルス応答フィルタのうちの１つに関する結合された頭部伝達関数セグメントを作成するために、前記左の変換されたバイノーラル室内インパルス応答フィルタの頭部伝達関数セグメントと前記右の変換されたバイノーラル室内インパルス応答フィルタの頭部伝達関数セグメントとを結合するための手段をさらに備え、
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施するための前記手段が、前記音場をレンダリングするために、前記結合された頭部伝達関数セグメントと前記複数の階層要素のうちの階層要素との高速畳み込みを実施するための手段を備える、請求項２７に記載の装置。
前記左の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントと前記右の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントとを結合するための前記手段が、前記複数のバイノーラル室内インパルス応答フィルタのうちの前記１つに関する頭部伝達関数セグメントを近似する最小位相フィルタを生成するために、前記左の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントと前記右のバイノーラル室内インパルス応答の変換されたフィルタの前記頭部伝達関数セグメントとのうちの少なくとも一方に、最小位相再構成を適用するための手段を備え、
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施するための前記手段が、前記音場をレンダリングするために、前記最小位相フィルタと前記複数の階層要素のうちの前記階層要素との高速畳み込みを実施するための手段を備える、請求項２９に記載の装置。
前記左の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントと前記右の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントとを結合するための前記手段が、前記複数の変換されたバイノーラル室内インパルス応答フィルタのうちの前記１つに関する頭部伝達関数セグメントを近似する最小位相フィルタを生成するため、および残余位相フィルタを作成するために、前記左の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントと前記右の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントとのうちの少なくとも一方に、最小位相再構成を適用するための手段を備え、前記装置が、
前記残余位相フィルタから両耳間時間差を推定するための手段をさらに備え、
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施するための前記手段が、前記音場を両耳にレンダリングするために、畳み込みを作成して前記両耳間時間差を適用するために、前記最小位相フィルタと前記複数の階層要素のうちの前記階層要素との前記高速畳み込みを実施するための手段を備える、請求項２９に記載の装置。
前記複数の変換されたバイノーラル室内インパルス応答フィルタが、左の変換されたバイノーラル室内インパルス応答フィルタと右の変換されたバイノーラル室内インパルス応答フィルタとを備え、
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施するための前記手段が、前記左のバイノーラル室内インパルス応答フィルタまたは前記右のバイノーラル室内インパルス応答フィルタのいずれかのみと前記複数の階層要素との高速畳み込みを実施するための手段を備える、請求項２７に記載の装置。
前記複数のバイノーラル室内インパルス応答フィルタの各々が、インパルスに起因する応答サンプルを含まない初期静止位相を備え、前記装置が、
前記複数のバイノーラル室内インパルス応答フィルタのうちの任意の応答サンプルの最早開始を決定するための手段をさらに備え、前記最早開始が前記複数のバイノーラル室内インパルス応答フィルタに関する共通の初期静止位相を決定し、
前記複数のバイノーラル室内インパルス応答フィルタの各々に関する前記複数のセグメントを決定するための前記手段が、前記共通の初期静止位相の一部である前記複数のバイノーラル室内インパルス応答フィルタのサンプルを含まないように、前記複数のバイノーラル室内インパルス応答フィルタのうちの前記少なくとも１つの方向依存性セグメントを決定するための手段を備える、請求項２７に記載の装置。
前記複数のバイノーラル室内インパルス応答フィルタの各々に関する前記複数のセグメントが、残余室内応答セグメントを備え、前記装置が、
共通の残余室内応答セグメントを作成するために、前記複数のバイノーラル室内インパルス応答フィルタの各々に関する前記残余室内応答セグメントを結合するための手段と、
前記複数のバイノーラル室内インパルス応答フィルタの各々に関する前記複数のセグメントの前記残余室内応答セグメントと前記複数の階層要素との高速畳み込みを実施することなく音場に対する室内応答をレンダリングするために、前記共通の残余室内応答セグメントと前記複数の階層要素との高速畳み込みを実施するための手段と、
をさらに備える前記装置をさらに備える、請求項２７に記載の装置。
前記共通の残余室内応答セグメントと前記複数の階層要素との前記高速畳み込みを実施するための前記手段が、前記音場に対する前記残余室内応答をレンダリングするために、前記複数の階層要素のうちの最高次数の要素を有する前記共通の残余室内応答セグメントだけの高速畳み込みを実施するための手段を備える、請求項３４に記載の装置。
前記音場をレンダリングするための前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みが信号を作成し、前記装置が、
音場に対する遅延残余室内応答を作成するために、前記音場に対する前記室内応答をゼロパディングするための手段と、
前記音場をレンダリングするために、前記音場に対する前記遅延室内応答と前記信号とを結合するための手段と、
をさらに備える、請求項３４に記載の装置。
フィルタ行列を生成するために、前記複数の変換されたバイノーラル室内インパルス応答フィルタを合計するための手段をさらに備え、
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施するための前記手段が、前記音場をレンダリングするために、前記フィルタ行列と前記複数の階層要素との高速畳み込みを実施するための手段を備える、請求項２７に記載の装置。
前記複数の階層要素が、球面調和係数を備える、請求項２７に記載の装置。
前記複数の階層要素が、高次アンビソニックスを備える、請求項２７に記載の装置。
実行されると、１つまたは複数のプロセッサに、
複数のバイノーラル室内インパルス応答フィルタの各々に関する複数のセグメントを決定すること、ここにおいて、前記複数のバイノーラル室内インパルス応答フィルタの各々は、残余室内応答セグメントと、フィルタ応答が音場内の位置に依存する少なくとも１つの方向依存性セグメントとを備える、と、
複数の変換されたバイノーラル室内インパルス応答フィルタを生成するために、複数の階層要素の領域に対応する領域に、前記複数のバイノーラル室内インパルス応答フィルタのうちの少なくとも１つの方向依存性セグメントの各々を変換すること、ここにおいて、前記複数の階層要素は前記音場を記述する、と、
前記音場をレンダリングするために、前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との高速畳み込みを実施することと、
を行わせる命令をその上に記憶した、非一時的コンピュータ可読記憶媒体。