JP2016523464A - バイノーラル室内インパルス応答を用いたフィルタリング - Google Patents

バイノーラル室内インパルス応答を用いたフィルタリング Download PDF

Info

Publication number
JP2016523464A
JP2016523464A JP2016516795A JP2016516795A JP2016523464A JP 2016523464 A JP2016523464 A JP 2016523464A JP 2016516795 A JP2016516795 A JP 2016516795A JP 2016516795 A JP2016516795 A JP 2016516795A JP 2016523464 A JP2016523464 A JP 2016523464A
Authority
JP
Japan
Prior art keywords
impulse response
room impulse
binaural room
filter
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016516795A
Other languages
English (en)
Other versions
JP6227764B2 (ja
JP2016523464A5 (ja
Inventor
シャン、ペイ
セン、ディパンジャン
ピーターズ、ニルス・ガンザー
モッレル、マーティン・ジェームス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2016523464A publication Critical patent/JP2016523464A/ja
Publication of JP2016523464A5 publication Critical patent/JP2016523464A5/ja
Application granted granted Critical
Publication of JP6227764B2 publication Critical patent/JP6227764B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/08Arrangements for producing a reverberation or echo sound
    • G10K15/12Arrangements for producing a reverberation or echo sound using electronic time-delay networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S1/005For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S3/004For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • H04S7/306For headphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)

Abstract

1つまたは複数のプロセッサを備えるデバイスは、複数のバイノーラル室内インパルス応答フィルタの各々に関する複数のセグメントを決定し、ここにおいて、複数の両耳室内バイノーラル室内インパルス応答フィルタの各々が、前記残余室内応答セグメントと、フィルタ応答が音場内の位置に依存する少なくとも1つの方向依存性セグメントとを備え、複数の変換されたバイノーラル室内インパルス応答フィルタを生成するために、複数のバイノーラル室内インパルス応答フィルタのうちの少なくとも1つの方向依存性セグメントの各々を、複数の階層要素の領域に対応する領域に変換し、ここにおいて、複数の階層要素は音場を記述し、音場をレンダリングするために、複数の変換されたバイノーラル室内インパルス応答フィルタと複数の階層要素との高速畳み込みを実施する、ように構成される。

Description

優先権主張
[0001]本出願は、2013年5月29日に出願された米国仮特許出願第61/828,620号、2013年7月17日に出願された米国仮特許出願第61/847,543号、2013年10月3日に出願された米国仮出願第61/886,593号、および2013年10月3日に出願された米国仮出願第61/886,620号の利益を主張する。
[0002]本開示は、音声レンダリングに関し、より詳細には、音声データのバイノーラルレンダリング(binaural rendering)に関する。
[0003]概して、音声ストリームの源をたどるために、バイノーラル室内インパルス応答(binaural room impulse response)(BRIR)フィルタの適用によるバイノーラル音声レンダリングに関する技法を説明する。
[0004]一例として、バイノーラル音声レンダリング(binaural audio rendering)の方法は、複数のバイノーラル室内インパルス応答フィルタの各々に関する複数のセグメント(segment)を決定することと、ここにおいて、複数のバイノーラル室内インパルス応答フィルタの各々は、残余室内応答セグメントと、フィルタ応答が音場内の位置に依存する少なくとも1つの方向依存性セグメントとを備える、と、複数の変換されたバイノーラル室内インパルス応答フィルタを生成するために、複数のバイノーラル室内インパルス応答フィルタのうちの少なくとも1つの方向依存性セグメントの各々を、複数の階層要素の領域に対応する領域に変換すること、ここにおいて、複数の階層要素は音場を記述する、と、音場をレンダリングするために、複数の変換されたバイノーラル室内インパルス応答フィルタと複数の階層要素との高速畳み込みを実施することと、を備える。
[0005]別の例では、デバイスは、複数のバイノーラル室内インパルス応答フィルタの各々に関する複数のセグメントを決定すること、ここにおいて、複数のバイノーラル室内インパルス応答フィルタの各々は、残余室内応答セグメントと、フィルタ応答が音場内の位置に依存する少なくとも1つの方向依存性セグメントとを備える、と、複数の変換されたバイノーラル室内インパルス応答フィルタを生成するために、複数のバイノーラル室内インパルス応答フィルタのうちの少なくとも1つの方向依存性セグメントの各々を、複数の階層要素の領域に対応する領域に変換すること、ここにおいて、複数の階層要素は音場を記述する、と、音場をレンダリングするために、複数の変換されたバイノーラル室内インパルス応答フィルタと複数の階層要素との高速畳み込みを実施することと、を行うように構成された1つまたは複数のプロセッサを備える。
[0006]別の例では、装置は、複数のバイノーラル室内インパルス応答フィルタの各々に関する複数のセグメントを決定するための手段、ここにおいて、複数のバイノーラル室内インパルス応答フィルタの各々は、残余室内応答セグメントと、フィルタ応答が音場内の位置に依存する少なくとも1つの方向依存性セグメントとを備える;複数の変換されたバイノーラル室内インパルス応答フィルタを生成するために、複数のバイノーラル室内インパルス応答フィルタのうちの少なくとも1つの方向依存性セグメントの各々を、音場を記述する複数の階層要素の領域に対応する領域に変換するための手段と;音場をレンダリングするために、複数の変換されたバイノーラル室内インパルス応答フィルタと複数の階層要素との高速畳み込みを実施するための手段と、を備える。
[0007]別の例では、非一時的コンピュータ可読記憶媒体は、実行されると、1つまたは複数のプロセッサに、複数のバイノーラル室内インパルス応答フィルタの各々に関する複数のセグメントを決定すること、ここにおいて、複数のバイノーラル室内インパルス応答フィルタの各々は、残余室内応答セグメントと、フィルタ応答が音場内の位置に依存する少なくとも1つの方向依存性セグメントとを備える、と、複数の変換されたバイノーラル室内インパルス応答フィルタを生成するために、複数のバイノーラル室内インパルス応答フィルタのうちの少なくとも1つの方向依存性セグメントの各々を、複数の階層要素の領域に対応する領域に変換すること、ここにおいて、複数の階層要素は音場を記述する、と、音場をレンダリングするために、複数の変換されたバイノーラル室内インパルス応答フィルタと複数の階層要素との高速畳み込みを実施することと、を行わせる命令をその上に記憶している。
[0008]技法の1つまたは複数の態様の詳細は、添付の図面および以下の説明に記載される。これらの技法の他の特徴、目的、および利点は、説明および図面から、ならびに特許請求の範囲から、明らかになろう。
[0009]様々な次数および副次数の球面調和基底関数を示す図。 様々な次数および副次数の球面調和基底関数を示す図。 [0010]音声信号情報をより効率的にレンダリングするために本開示で説明する技法を実行し得るシステムを示す図。 [0011]例示的なバイノーラル室内インパルス応答(BRIR)を示すブロック図。 [0012]室内でBRIRを作成するための例示的なシステムモデルを示すブロック図。 [0013]室内でBRIRを作成するためのより詳細なシステムモデルを示すブロック図。 [0014]本開示で説明するバイノーラル音声レンダリング技法の様々な態様を実施し得る音声再生デバイスの一例を示すブロック図。 [0015]本開示で説明するバイノーラル音声レンダリング技法の様々な態様を実施し得る音声再生デバイスの一例を示すブロック図。 [0016]本開示で説明する技法の様々な態様による、球面調和係数をレンダリングするための、バイノーラルレンダリングデバイスに関する例示的な演算のモードを示すフロー図。 [0017]本開示で説明する技法の様々な態様による、図7および図8の音声再生デバイスによって実施され得る代替の演算のモードを示すフロー図。 本開示で説明する技法の様々な態様による、図7および図8の音声再生デバイスによって実施され得る代替の演算のモードを示すフロー図。 [0018]本開示で説明するバイノーラル音声レンダリング技法の様々な態様を実施し得る音声再生デバイスの一例を示すブロック図。 [0019]本開示で説明する技法の様々な態様による、図11の音声再生デバイスによって実施され得るプロセスを示すフロー図。
[0020]同様の参照符号は、図面およびテキスト全体を通して同じ要素を示す。
[0021]サラウンドサウンドの発展は、現今では娯楽のための多くの出力フォーマットを利用可能にしている。そのようなサラウンドサウンドフォーマットの例は、一般的な5.1フォーマット(これは、フロントレフト(FL)と、フロントライト(FR)と、センターまたはフロントセンターと、バックレフトまたはサラウンドレフトと、バックライトまたはサラウンドライトと、低周波効果(LFE)という、6つのチャンネルを含む)、発展中の7.1フォーマット、および今後来る22.2フォーマット(たとえば、超高精細テレビ規格で使用するための)を含む。空間音声フォーマットの別の例は、球面調和係数(高次アンビソニックス(Higher Order Ambisonics)としても知られている)である。
[0022]将来規格化される音声エンコーダ(PCM音声表現をビットストリームに変換するデバイス−時間サンプルごとに必要なビット数を保存する)への入力は、随意に、3つの可能なフォーマット、(i)あらかじめ指定された位置でラウドスピーカーによって再生されることを意味する、従来のチャンネルベース音声、(ii)(様々な情報の中でも)位置座標を含む関連付けられたメタデータを有する単一音声オブジェクトのための離散的なパルス符号変調(PCM)データを含むオブジェクトベース音声、および(iii)球面調和係数(SHC)を使用して音場を表すことを含むシーンベース音声−ここで、係数は球面調和基底関数の線形和の「重み」を表す、のうちの1つとすることができる。この文脈では、SHCは、高次アンビソニックス(HoA)モデルによるHoA信号を含み得る。球面調和係数は、代替または追加として、平面モデルと球面モデルとを含み得る。
[0023]市場には様々な「サラウンドサウンド」フォーマットがある。これらのフォーマットは、たとえば、5.1ホームシアターシステム(リビングルームへの進出を行うという点でステレオ以上に最も成功した)からNHK(Nippon Hoso Kyokaiすなわち日本放送協会)によって開発された22.2システムに及ぶ。コンテンツ作成者(たとえば、ハリウッドスタジオ)は、一度に映画のサウンドトラックを作成することを望み、各々のスピーカー構成のためにサウンドトラックをリミックスする努力を行うことを望まない。最近では、標準化委員会が、標準化されたビットストリームへの符号化と、スピーカーの幾何学的配置およびレンダラの位置における音響条件に適合可能でありそれらに依存しない後続の復号とを提供するための方法を考えている。
[0024]コンテンツ作成者にそのようなフレキシビリティを提供するために、要素の階層的なセットが音場を表すために使用され得る。要素の階層的なセットは、より低次の要素の基本セットがモデル化された音場の完全な表現を提供するように要素が順序付けられている、要素のセットを指し得る。このセットはより高次の要素を含むように拡張されるので、表現はより詳細なものになる。
[0025]要素の階層的なセットの一例は、球面調和係数(SHC)のセットである。次の式は、SHCを使用した音場の記述または表現を示す。
Figure 2016523464
この式は、任意の点{rr,θr,φr}(これは、この例において音場を取り込むマイクロフォンに対する球面座標で表される)における音場の圧力piが、
Figure 2016523464
によって一意に表され得ることを示す。ここで、
Figure 2016523464
、cは音の速さ(約343m/s)であり、{rr,θr,φr}は基準の点(または観測点)であり、jn(・)は次数nの球ベッセル関数であり、および
Figure 2016523464
は次数nおよび副次数mの球面調和基底関数である。角括弧内の項は、離散フーリエ変換(DFT)、離散コサイン変換(DCT)、またはウェーブレット変換などの様々な時間周波数変換によって近似され得る信号の周波数領域表現(すなわち、S(ω,rr,θr,φr)である)ことが認識できよう。階層的なセットの他の例は、ウェーブレット変換の係数のセットと、多重解像度の基底関数の係数の他のセットとを含む。
[0026]図1は、ゼロ次(n=0)から4次(n=4)までの球面調和基底関数を示す図である。理解できるように、各次数に対して、説明を簡単にするために図示されているが図1の例では明示的に示されていない副次数mの拡張が存在する。
[0027]図2は、ゼロ次(n=0)から第4次(n=4)までの球面調和基底関数を示す別の図である。図2では、球面調和ベースの関数は、示される次数と副次数の両方を伴う3次元座標空間において示される。
[0028]いずれにしても、
Figure 2016523464
は、様々なマイクロフォンアレイ構成によって物理的に取得(たとえば、記録)されることが可能であり、または代替的に、音場のチャンネルベースの記述もしくはオブジェクトベースの記述から導出されることが可能である。SHCは、シーンに基づく音声を表す。たとえば、4次のSHCの表現は、時間サンプルごとに(1+4)2=25個の係数を伴う。
[0029]これらのSHCがどのようにオブジェクトベースの記述から導出され得るかを例示するために、次の式を考える。個々の音声オブジェクトに対応する音場に関する係数
Figure 2016523464
は、
Figure 2016523464
として表され得、ここで、iは
Figure 2016523464
であり、hn (2)(・)は次数nの(第2の種類の)球ハンケル関数であり、{rs,θs,φs}はオブジェクトの位置である。周波数の関数としての音源のエネルギーg(ω)を知ること(たとえば、PCMストリームに高速フーリエ変換を行うなどの、時間・周波数解析技法を使用して)は、我々が各PCMオブジェクトとその位置とを
Figure 2016523464
に変換することを可能にする。さらに、各オブジェクトに関する
Figure 2016523464
係数は、(上式は線形であり直交方向の分解であるので)加法的であることが示され得る。このようにして、多数のPCMオブジェクトが
Figure 2016523464
係数によって(たとえば、個々のオブジェクトに関する係数ベクトルの和として)表され得る。本質的に、これらの係数は、音場に関する情報(3D座標の関数としての圧力)を含んでおり、上記は、観測点{rr,θr,φr}の近傍における、音場全体の表現への個々のオブジェクトからの変換を表す。
[0030]SHCはまた、マイクロフォンアレイの記録から次のように導出され得る。
Figure 2016523464
ただし、
Figure 2016523464

Figure 2016523464
(SHC)の時間領域の等価物であり、*は畳み込み演算を表し、<,>は内積を表し、bn(ri,t)はriに依存する時間領域のフィルタ関数を表し、mi(t)はi番目のマイクロフォンの信号であり、i番目のマイクロフォントランスデューサ(microphone transducer)は、半径ri、仰角θi、および方位角φiに位置する。したがって、マイクロフォンアレイの中に32個のトランスデューサがあり、各マイクロフォンが、ri=aが定数となるように球面上に配置される(mhAcousticsのEigenmike EM32デバイス上のマイクロフォンのように)場合、25個のSHCが、行列演算を使用して次のように導出され得る。
Figure 2016523464
上記の式中の行列は、より一般的にはEs(θ,φ)と呼ばれることがあり、ここで、下付き文字sは、この行列がある特定の変換器幾何学的配置セットsに関することを示すことができる。上記の式中の畳み込み(*によって示される)は、行と行に基づき、したがって、たとえば、出力
Figure 2016523464
はb0(a,t)と、Es(θ,φ)行列の第1の行とマイクロフォン信号の列(これは時間の関数として変化する−ベクトル乗算の結果が時系列であるという事実の理由である)とのベクトル乗算から生じる時系列と、の間の畳み込みの結果である。算出は、マイクロフォンアレイの変換器位置が、いわゆるT字形設計幾何学的配置(Eigenmike変換器幾何学的配置に極めて近い)にあるとき、最も正確であり得る。T字形設計幾何学的配置の1つの特徴は、幾何学的配置から生じるEs(θ,φ)行列は行儀の非常によい(very well behaved)逆行列(または擬似逆行列)を有すること、さらに、この逆行列は行列Es(θ,φ)の転置によって極めてよく近似され得ることが多いことであり得る。仮にbn(a,t)を用いたフィルタリング動作が無視される場合、この性質は、SHCからのマイクロフォン信号の復元(すなわち、この例では、[mi(t)]=[Es(θ,φ)]-1[SHC])を可能にする。残りの数字は、以下でオブジェクトベース音声コーディングおよびSHCベース音声コーディングの文脈で説明される。
[0031]図3は、音声信号情報をより効率的にレンダリングするために本開示で説明する技法を実行し得るシステム20を示す図である。図3の例に示すように、システム20は、コンテンツ作成者22と、コンテンツ消費者24とを含む。コンテンツ作成者22およびコンテンツ消費者24の文脈で説明するが、本技法は、音場の階層的表示を規定するSHCまたは任意の他の階層要素を利用する任意の文脈において実施され得る。
[0032]コンテンツ作成者22は、コンテンツ消費者24などのコンテンツ消費者による消費のためのマルチチャンネル音声コンテンツを生成し得る映画撮影所または他のエンティティを表すことができる。多くの場合、このコンテンツ作成者は、ビデオコンテンツとともに、音声コンテンツを生成する。コンテンツ消費者24は、音声再生システムを所有するまたはそれにアクセスできる個人を表し得、その音声再生システムはマルチチャンネル音声コンテンツを再生する能力がある音声再生システムの任意の形を指し得る。図3の例では、コンテンツ消費者24は、音場の階層的表示を規定する階層要素をレンダリングするための音声再生システム32を所有するかまたはそれへのアクセスを有する。
[0033]コンテンツ作成者22は、音声レンダラ28と音声編集システム30とを含む。音声レンダラ28は、スピーカーフィード(「ラウドスピーカーフィード」、「スピーカー信号」、または「ラウドスピーカー信号」と呼ばれることもある)をレンダリングするかまたはさもなければ生成する音声処理ユニットを表し得る。各スピーカーフィードは、マルチチャンネル音声システムの特定のチャンネルに対する音を再生するスピーカーフィード、またはスピーカー位置に適合する頭部伝達関数(HRTF)フィルタとの畳み込みについて意図される仮想ラウドスピーカーフィードに対応することができる。各スピーカーフィードは、球面調和係数のチャンネル(ここで、チャンネルは、球面調和係数が対応する関連付けられた球面基底関数の次数および/または副次数によって示され得る)に対応し得、指向性音場を表すためにSHCの多数のチャンネルを使用する。
[0034]図3の例では、音声レンダラ28は、従来の5.1、7.1、または22.2のサラウンドサウンドフォーマットのためのスピーカーフィードをレンダリングし、5.1、7.1、または22.2のサラウンドサウンドスピーカーシステムにおいて、5個、7個、または22個のスピーカーの各々に関するスピーカーフィードを生成することができる。代替的に、音声レンダラ28は、上記で検討した音源の球面調和係数の性質が与えられれば、任意の数のスピーカーを有する任意のスピーカー構成のための音源の球面調和係数からスピーカーフィードをレンダリングするように構成され得る。音声レンダラ28は、このようにして、図3ではスピーカーフィード29と示されているいくつかのスピーカーフィードを生成し得る。
[0035]コンテンツ作成者は、編集プロセス中に、球面調和係数27(「SHC27」)をレンダリングし、高い忠実度を持たないまたは説得力のあるサラウンドサウンド経験を提供しない音場の様相を識別する試みにおけるレンダリングされたスピーカーフィードをリッスンすることができる。次いで、コンテンツ作成者22は、(多くの場合、上記の様式で音源の球面調和係数が導出され得る異なるオブジェクトの操作を通じて、間接的に)音源の球面調和係数を編集することができる。コンテンツ作成者22は、球面調和係数27を編集するために音声編集システム30を用いることができる。音声編集システム30は、音声データを編集し、この音声データを1つまたは複数の音源の球面調和係数として出力することが可能な任意のシステムを表す。
[0036]編集プロセスが完了すると、コンテンツ作成者22は、球面調和係数27に基づいてビットストリーム31を生成することができる。すなわち、コンテンツ作成者22は、ビットストリーム生成デバイス36を含み、それは、ビットストリーム31を生成する能力がある任意のデバイスを表し得る。場合によっては、ビットストリーム生成デバイス36は、球面調和係数27を帯域幅圧縮し(一例として、エントロピー符号化を通じて)、ビットストリーム31を形成するために認められたフォーマットで球面調和係数27のエントロピー符号化バージョンを配置するエンコーダを表し得る。他の例では、ビットストリーム生成デバイス36は、一例としてマルチチャンネル音声コンテンツまたはその派生物を圧縮するために従来の音声サラウンドサウンド符号化プロセスのプロセスに類似したプロセスを使用してマルチチャンネル音声コンテンツ29を符号化する音声エンコーダ(おそらく、MPEGサラウンドなどの知られている音声コーディング規格またはその派生物に適合する音声エンコーダ)を表すことができる。圧縮されたマルチチャンネル音声コンテンツ29は次いで、コンテンツ29を帯域幅圧縮するためにエントロピー符号化されまたはある他の方法でコーディングされ、ビットストリーム31を形成するために合意したフォーマットに従って配置されてもよい。ビットストリーム31を形成するために直接圧縮されようと、レンダリングされ、次いでビットストリーム31を形成するために圧縮されようと、コンテンツ作成者22は、コンテンツ消費者24にビットストリーム31を送信することができる。
[0037]図3ではコンテンツ消費者24に直接送信されるとして示されるが、コンテンツ作成者22は、コンテンツ作成者22とコンテンツ消費者24との間に位置付けられる中間デバイスにビットストリーム31を出力し得る。この中間デバイスは、このビットストリームを要求し得るコンテンツ消費者24への後の配送のためにビットストリーム31を記憶し得る。中間デバイスは、ファイルサーバ、ウェブサーバ、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、モバイルフォン、スマートフォン、または音声デコーダによる後の取出しのためにビットストリーム31を記憶する能力がある任意の他のデバイスを備え得る。この中間デバイスは、ビットストリーム31を要求するコンテンツ消費者24などの加入者にビットストリーム31を(おそらくは対応するビデオデータビットストリームを送信するとともに)ストリーミングすることが可能なコンテンツ配信ネットワークに存在し得る。代替的に、コンテンツ作成者22は、コンパクトディスク、デジタルビデオディスク、高精細度ビデオディスク、または他の記憶媒体などの記憶媒体にビットストリーム31を格納することができ、記憶媒体の大部分はコンピュータによって読み取り可能であり、したがって、コンピュータ可読記憶媒体または非一時的コンピュータ可読記憶媒体と呼ばれ得る。この文脈において、送信チャンネルは、これらの媒体に格納されたコンテンツが送信されるチャンネルを指し得る(および、小売店と他の店舗ベースの配信機構とを含み得る)。したがって、いずれにしても、本開示の技法は、この点に関して図3の例に限定されるべきではない。
[0038]図3の例にさらに示すように、コンテンツ消費者24は、音声再生システム32を所有するかまたはそれへのアクセスを有する。音声再生システム32は、マルチチャンネル音声データを再生することが可能な任意の音声再生システムを表すことができる。音声再生システム32は、バイノーラルスピーカーフィード35A〜35B(総称して「スピーカーフィード35」)としての出力に関するSHC27’をレンダリングするバイノーラル音声レンダラ34を含む。バイノーラル音声レンダラ34は、ベクトルベース振幅パニング(VBAP:vector-base amplitude panning)を実施する様々な方法のうちの1つまたは複数、および/または音場合成を実施する様々な方法のうちの1つまたは複数など、異なる形態のレンダリングを提供し得る。
[0039]音声再生システム32は、抽出デバイス38をさらに含むことができる。抽出デバイス38は、一般にビットストリーム生成デバイス36のプロセスに相反し得るプロセスによって球面調和係数27’(球面調和係数27の修正された形態または複製物を表すことができる「SHC27’」)を抽出することが可能な任意のデバイスを表すことができる。いずれにしても、音声再生システム32は、球面調和係数27’を受信し、球面調和係数27’をレンダリングするためにバイノーラル音声レンダラ34を使用し、それによって(音声再生システム32に電気的にまたはおそらくワイヤレスに結合されるラウドスピーカーの数に対応する、このことは例示を容易にするために図3の例には示さない)スピーカーフィード35を生成し得る。スピーカーフィード35の数は2であり得、音声再生システムは、2つの対応するラウドスピーカーを含む一対のヘッドフォンにワイヤレスに結合し得る。しかしながら、様々な例では、バイノーラル音声レンダラ34は、図3に関して図示され、最初に説明されたものより多数または少数のスピーカーフィードを出力することがある。
[0040]インパルス位置において生成されたインパルスに関する位置における応答をそれぞれ表す音声再生システムのバイナリ室内インパルス応答(BRIR)フィルタ37。BRIRフィルタ37は、それらがそれぞれ、その位置において人間の耳によって経験されるであろうインパルス応答を表すように生成されるという点において「バイノーラル」である。したがって、インパルスに関するBRIRフィルタは、対のうちの1つの要素が左耳用であり別の要素が右耳用である、対を成すサウンドレンダリングのために生成され、使用されることが多い。図示の例では、バイノーラル音声レンダラ34は、それぞれのバイノーラル音声出力35Aおよび35Bをレンダリングするために、左BRIRフィルタ33Aと右BRIRフィルタ33Bとを使用する。
[0041]たとえば、BRIRフィルタ37は、音源信号と、インパルス応答(IR)として測定された頭部伝達関数(HRTF)とを畳み込むことによって生成され得る。BRIRフィルタ37の各々に対応するインパルス位置は、仮想空間中の仮想ラウドスピーカーの位置を表し得る。いくつかの例では、バイノーラル音声レンダラ34は、SHC27’と、仮想ラウドスピーカーに対応するBRIRフィルタ37とを畳み込み、次いで、スピーカーフィード35としての出力に対してSHC27’によって規定される音場をレンダリングするために、得られる畳み込みを集積する(すなわち、合計する)。本明細書で説明するように、バイノーラル音声レンダラ34は、スピーカーフィード35としてSHC27’をレンダリングしながら、BRIRフィルタ37を操作することによってレンダリング計算を削減するための技法を適用し得る。
[0042]いくつかの例では、本技法は、BRIRフィルタ37を、室内の一位置における一インパルス応答の異なる段階を表すいくつかのセグメントにセグメント化することを含む。これらのセグメントは、音場の任意の点における圧力(または圧力の欠如)を生成する異なる物理現象に対応する。たとえば、BRIRフィルタ37の各々はインパルスと同時に計時されるので、第1のセグメントまたは「初期」セグメントは、インパルスの位置からの圧力波がインパルス応答が測定される位置に到達するまでの時間を表し得る。タイミング情報を別として、それぞれの初期セグメントに関するBRIRフィルタ37の値は重要ではなく、音場を記述する階層要素との畳み込みから除外されてよい。同様に、BRIRフィルタ37の各々は、たとえば、人間の聴覚のダイナミックレンジより低く減衰された、または指定されたしきい値より低く減衰されたインパルス応答信号を含む最終または「末尾」セグメントを含み得る。それぞれの末尾セグメントに関するBRIRフィルタ37の値もまた重要ではなく、音場を記述する階層要素との畳み込みから除外されてよい。いくつかの例では、本技法は、指定されたしきい値を用いてシュレーダの後方積分(Schroeder backward integration)を実施すること、および後方積分が指定されたしきい値を超える場合に末尾セグメントから要素を除くことによって末尾セグメントを決定することを含むことがある。いくつかの例では、指定されたしきい値は、残響時間RT60に関して−60dBである。
[0043]BRIRフィルタ37の各々の追加のセグメントは、室からのエコー効果を含まない、インパルスで生じた圧力波に起因するインパルス応答を表し得る。これらのセグメントは、BRIRフィルタ37に関する頭部伝達関数(HRTF)として表され、説明され得、ここで、HRTFは、圧力波が鼓膜まで進むにつれて頭、肩/胴、および外耳の周りの圧力波の回折および反射によるインパルス応答を取り込む。HRTFインパルス応答は、線形時不変系(LTI:linear and time-invariant system)の結果であり、最小位相フィルタとしてモデル化され得る。いくつかの例では、レンダリングの間のHRTFセグメント計算を削減するための技法は、最小位相再構成を含み、元の有限インパルス応答(FIR)フィルタ(たとえば、HRTFフィルタセグメント)の次数を削減するために、無限インパルス応答(IIR)フィルタを使用することができる。
[0044]IIRフィルタとして実装される最小位相フィルタは、削減されたフィルタ次数を有するBRIRフィルタ37に関するHRTFフィルタを近似するために使用され得る。次数を削減することは、周波数領域において時間ステップに関する計算の数が付随して削減することをもたらす。加えて、最小位相フィルタの構築に起因する残余/余剰フィルタが、音の圧力波が音源から各耳まで進む距離によって引き起こされる時間距離または位相距離を表す両耳間時間差(ITD:interaural time difference)を推定するために使用され得る。次いで、ITDは、1つまたは複数のBRIRフィルタ37と、音場を記述する(すなわち、バイノーラル化を決定する)階層要素との畳み込みを計算した後、片耳または両耳に関する音の定位をモデル化するために使用され得る。
[0045]またさらに、BRIRフィルタ37の各々のセグメントがHRTFセグメントに後続し、インパルス応答に関する室内の効果を説明し得る。この室内セグメントは、早期エコー(または「早期反射」)セグメントと後期残響セグメントとにさらに分解され得る(すなわち、早期エコーおよび後期残響が、それぞれ、BRIRフィルタ37の各々の別個のセグメントによって表され得る)。HRTFデータがBRIRフィルタ37に関して利用可能である場合、早期エコーセグメントの開始は、HRTFセグメントを識別するためにBRIRフィルタ37とHRTFとの逆畳み込みを行うことによって識別され得る。早期エコーセグメントが、HRTFセグメントに後続する。残余室内応答とは異なり、HRTFセグメントおよび早期エコーセグメントは、対応する仮想スピーカーの位置が重要な点における信号を決定するという点において方向依存性である。
[0046]いくつかの例では、バイノーラル音声レンダラ34は、音場を記述する階層要素に関する球面調和領域(θ、φ)または他の領域のために準備されたBRIRフィルタ37を使用する。すなわち、BRIRフィルタ37は、バイノーラル音声レンダラ34が、BRIRフィルタ37の(たとえば、左/右の)対称性およびSHC27’の対称性を含む、データセットのいくつかの特性を利用しながら高速畳み込みを実施することを可能にするために、球面調和領域(SHD)において、変換されたBRIRフィルタ37として規定され得る。そのような例では、変換されたBRIRフィルタ37は、SHCレンダリング行列と元のBRIRフィルタとを乗算する(または時間領域において畳み込みを行う)ことによって生成され得る。数学的に、これは、下式(1)〜(5)
Figure 2016523464
Figure 2016523464
Figure 2016523464
Figure 2016523464
Figure 2016523464
に従って表現され得る。
[0047]ここで、(3)は、(1)または(2)のいずれかを、4次の球面調和係数に関する行列形式で示す(これは、4次以下の球面基底関数と関連付けられた球面調和係数の行列形式を表すための代替方法であり得る)。式(3)は、当然ながら、より高次またはより低次の球面調和係数に関して修正され得る。式(4)〜式(5)は、合計されたSHC−バイノーラルレンダリング行列(BRIR’’)を生成するために、変換された左および右のBRIRフィルタ37をラウドスピーカー次元Lにわたって合計することを示す。相まって、合計されたSHC−バイノーラルレンダリング行列は、次元[(N+1)2、Length、2]を有し、ここで、Lengthは、式(1)〜式(5)の任意の結合が適用され得るインパルス応答ベクトルの長さである。式(1)および式(2)のいくつかの例では、レンダリング行列SHCは、式(1)が、BRIR’(N+1)2,L,left=SHC(N+1)2,L,left*BRIRL,leftに修正され、式(2)が、BRIR’(N+1)2,L,right=SHC(N+1)2,L*BRIRL,rightに修正され得るように、バイノーラル化され得る。
[0048]上式(1)〜(3)において提示される行列をレンダリングするSHC、SHCは、SHC27’の次数/副次数の結合の各々に関する要素を含み、それは、別個のSHCチャンネルを効率的に規定し、ここで、要素の値は、球面調和領域内のスピーカーLの位置に関するセットである。BRIRL,leftは、左耳、またはスピーカーLに関する位置で生成されたインパルスに関する位置におけるBRIR応答を表し、{i|i∈[0,L]}に関するインパルス応答ベクトルBiを使用して(3)で表される。BRIR’(N+1)2,L,leftは、「SHC−バイノーラルレンダリング行列」の半分、すなわち、球面調和領域に変換された、左耳またはスピーカーLに関する位置で生成されたインパルスに関する位置におけるSHC−バイノーラルレンダリング行列を表す。BRIR’(N+1)2,L,rightは、SHC−バイノーラルレンダリング行列の他方の半分を表す。
[0049]いくつかの例では、本技法は、変換されたBRIRフィルタ37とSHC−バイノーラルレンダリング行列とを生成するために、それぞれの元のBRIRフィルタ37のHRTFおよび早期反射セグメントだけにSHCレンダリング行列を適用することを含み得る。これは、SHC27’との畳み込みの長さを削減し得る。
[0050]いくつかの例では、式(4)〜(5)に表されるように、球面調和領域における様々なラウドスピーカーを組入れる次元を有するSHC−バイノーラルレンダリング行列は、SHCレンダリングとBRIRレンダリング/ミキシングとを結合する(N+1)2*Length*2のフィルタ行列を生成するように合計され得る。すなわち、L個のラウドスピーカーの各々に関するSHC−バイノーラルレンダリング行列は、たとえば、係数をL次元にわたって合計することによって結合され得る。長さLengthのSHC−バイノーラルレンダリング行列に関して、これは、信号をバイノーラル化するために球面調和係数の音声信号に適用され得る(N+1)2*Length*2の合計された、SHC−バイノーラルレンダリング行列を作成する。Lengthは、本明細書で説明する技法に従ってセグメント化されたBRIRフィルタのセグメントの長さであり得る。
[0051]モデル節減のための技法はまた、変更されたレンダリングフィルタに適用され得、それは、SHC27’(たとえば、SHCコンテンツ)が新しいフィルタ行列(合計されたSHC−バイノーラルレンダリング行列)で直接フィルタリングされることを可能にする。次いで、バイノーラル音声レンダラ34は、バイノーラル出力信号35A、35Bを取得するためにフィルタリングされたアレイを合計することによってバイノーラル音声に変換し得る。
[0052]いくつかの例では、音声再生システム32のBRIRフィルタ37は、上記で説明した技法のうちの任意の1つまたは複数に従って以前に計算された球面調和領域における変換されたBRIRフィルタを表す。いくつかの例では、元のBRIRフィルタ37の変換は、実行時に実施され得る。
[0053]いくつかの例では、BRIRフィルタ37は一般的に対称であるので、本技法は、左または右のいずれかの耳に関するSHC−バイノーラルレンダリング行列だけを使用することによって、バイノーラル出力35A、35Bの計算のさらなる節減を促進することができる。フィルタ行列によってフィルタリングされたSHC27’を合計するとき、バイノーラル音声レンダラ34は、最終出力をレンダリングするとき、第2のチャンネルとしての出力信号35A、35Bのいずれかに関して、条件付き決定を行うことができる。本明細書で説明するように、左または右のいずれかの耳に対して記述された、処理コンテンツまたは修正レンダリング行列に対する言及は、他方の耳に同様に適用可能であるものと理解されるべきである。
[0054]このようにして、本技法は、除外されたBRIRフィルタサンプルと複数のチャンネルとの直接の畳み込みを潜在的に回避するために、BRIRフィルタ37の長さを削減するための複数の手法を提供し得る。その結果、バイノーラル音声レンダラ34は、SHC27’からのバイノーラル出力信号35A、35Bの効率的なレンダリングを提供し得る。
[0055]図4は、例示的なバイノーラル室内インパルス応答(BRIR)を示すブロック図である。BRIR40は、5つのセグメント42A〜42Eを示す。初期セグメント42Aおよび末尾セグメント42Eは共に、いずれも、重要でなく、レンダリング計算から除外されてよい静止サンプルを含む。頭部伝達関数(HRTF)セグメント42Bは、頭部伝達によるインパルス応答を含み、本明細書で説明する技法を使用して識別され得る。早期エコー(代替として「早期反射」)セグメント42Cおよび後期室内残響セグメント42Dは、HRTFと室内効果とを結合する、すなわち、早期エコーセグメント42Cのインパルス応答は、室内の早期エコーおよび後期残響によってフィルタリングされたBRIR40に関するHRTFのインパルス応答に匹敵する。しかしながら、早期エコーセグメント42Cは、後期室内残響セグメント42Dと比較して、より離散的なエコーを含むことがある。ミキシング時間は、早期エコーセグメント42Cと後期室内残響セグメント42Dとの間の時間であり、早期エコーが密な残響になる時間を示す。ミキシング時間は、HRTFの中に約1.5×104サンプルにおいて、またはHRTFセグメント42Bの開始から約7.0×104サンプルにおいて発生するように図示されている。いくつかの例では、本技法は、統計データと室内容積からの推定とを使用してミキシング時間を計算することを含む。いくつかの例では、50%の内部信頼tmp50を有する知覚のミキシング時間は約36ミリ秒(ms)であり、95%信頼区間tmp95を有する知覚のミキシング時間は約80msである。いくつかの例では、BRIR40に対応するフィルタの後期室内残響セグメント42Dは、コヒーレンス整合された雑音末尾(coherence-matched noise tail)を使用して合成され得る。
[0056]図5は、室内で図4のBRIR40などのBRIRを作成するための例示的なシステムモデル50を示すブロック図である。このモデルは、ここでは室内52AおよびHRTF52Bの、カスケード接続されたシステムを含む。HRTF52Bがインパルスに対して適用された後、インパルス応答は、室内52Aの早期エコーによってフィルタリングされたHRTFのインパルス応答に匹敵する。
[0057]図6は、室内で図4のBRIR40などのBRIRを作成するための、より詳細なシステムモデル60を示すブロック図である。このモデル60はまた、ここではHRTF62A、早期エコー62B、および残余室内62C(これはHRTFと室内エコーとを結合する)の、カスケード接続されたシステムを含む。モデル60は、室内52Aを早期エコー62Bおよび残余室内62Cに分解することを示し、各システム62A、62B、62Cを線形時不変として取り扱う。
[0058]早期エコー62Bは、残余室内62Cより離散的なエコーを含む。したがって、早期エコー62Bは仮想スピーカーチャンネルごとに変化し得、一方、より長い末尾を有する残余室内62Cは、単一のステレオコピーとして合成され得る。BRIRを取得するために使用されるいくつかの測定用マネキンに関して、HRTFデータが、無響室内で測定されるなど入手可能である。早期エコー(「反射」と呼ばれることがある)の位置を識別するために、早期エコー62Bが、BRIRおよびHRTFのデータを逆畳み込みを行うことによって決定され得る。いくつかの例では、HRTFデータはすぐに入手可能ではなく、早期エコー62Bを識別するための技法はブラインド推定を含む。しかしながら、単純な手法は、最初の数ミリ秒(たとえば、最初の5、10、15、または20ms)を、HRTFによってフィルタリングされた直接インパルスと見なすことを含み得る。上記のように、本技法は、統計データと室内容積からの推定とを使用してミキシング時間を計算することを含み得る。
[0059]いくつかの例では、本技法は、残余室内62Cに関して1つまたは複数のBRIRフィルタを合成することを含み得る。ミキシング時間の後、BRIR残響の末尾(図6にシステムの残余室内62Cとして表される)は、いくつかの例では、知覚の代償なしに交換され得る。さらに、BRIR残響の末尾は、エネルギーディケイレリーフ(EDR:Energy Decay Relief)と周波数依存性両耳間コヒーレンス(FDIC:Frequency-Dependent Interaural Coherence)とに適合するガウスノイズで合成され得る。いくつかの例では、共通の合成BRIR残響の末尾が、複数のBRIRフィルタに関して生成され得る。いくつかの例では、共通のEDRは、すべてのスピーカーのEDRの平均であり得、または平均エネルギーに匹敵するエネルギーを有するフロントゼロ度EDR(front zero degree EDR)であり得る。いくつかの例では、FDICは、すべてのスピーカーにわたる平均FDICであり得、または広い空間に関する最大限に相関のない測定に関する、すべてのスピーカーにわたった最小値であってよい。いくつかの例では、残響の末尾はまた、フィードバック遅延ネットワーク(FDN:Feedback Delay Network)による人工的残響を用いてシミュレーションされ得る。
[0060]共通の残響の末尾によって、対応するBRIRフィルタの後ろの部分は、各スピーカーフィードとの個別の畳み込みから除外され得るが、代わりに、一度、すべてのスピーカーフィードのミックスに適用され得る。上記のように、および以下でさらに詳細に説明するように、すべてのスピーカーフィードのミキシングは、球面調和係数信号レンダリングを用いてさらに簡素化され得る。
[0061]図7は、本開示で説明するバイノーラル音声レンダリング技法の様々な態様を実施し得る音声再生デバイスの一例を示すブロック図である。単一のデバイス、すなわち図7の例における音声再生デバイス100として示されているが、技法は、1つまたは複数のデバイスによって実施され得る。したがって、本技法はこの点において限定されるべきではない。
[0062]図7の例に示すように、音声再生デバイス100は、抽出ユニット104とバイノーラルレンダリングユニット102とを含み得る。抽出ユニット104は、ビットストリーム120から符号化音声データを抽出するように構成されたユニットを表し得る。抽出ユニット104は、球面調和係数(SHC)122(これは、SHC122が、1より大きい次数と関連付けられた少なくとも1つの係数を含み得るという点において高次アンビソニックス(HOA:higher order ambisonics)と呼ばれることもある)の形態の抽出された符号化音声データをバイノーラルレンダリングユニット146に転送し得る。
[0063]いくつかの例では、音声再生デバイス100は、SHC122を生成するために符号化音声データを復号するように構成された音声復号ユニットを含む。音声復号ユニットは、いくつかの態様においてSHC122を符号化するために使用される音声符号化プロセスと相反する音声復号プロセスを実施し得る。音声復号ユニットは、符号化音声データのSHCを時間領域から周波数領域に変換するように構成された時間周波数解析ユニットを含み得、それによってSHC122を生成する。すなわち、符号化音声データが、時間領域から周波数領域に変換されていない、SHC122の圧縮形態を表すとき、音声復号ユニットは、SHC122(周波数領域で指定される)を生成するように、SHCを時間領域から周波数領域に変換するために時間周波数解析ユニットを起動し得る。時間周波数解析ユニットは、SHCを時間領域から周波数領域におけるSHC122に変換するために、数例を提示すると、高速フーリエ変換(FFT)と、離散コサイン変換(DCT)と、修正離散コサイン変換(MDCT)と、離散サイン変換(DST)とを含む、フーリエベースの変換の任意の形式を適用し得る。いくつかの例では、SHC122は、すでに、ビットストリーム120において周波数領域内で指定され得る。これらの例では、時間周波数解析ユニットは、変換を適用することなく、またはさもなければ受信されたSHC122を変換することなく、SHC122をバイノーラルレンダリングユニット102に送ることができる。周波数領域で指定されたSHC122に関して説明したが、本技法は、時間領域で指定されたSHC122に関して実施され得る。
[0064]バイノーラルレンダリングユニット102は、SHC122をバイノーラル化するように構成されたユニットを表す。言い換えれば、バイノーラルレンダリングユニット102は、SHC122を左および右のチャンネルにレンダリングするように構成されたユニットを表し、そのユニットは、SHC122が記録された室内において、左および右のチャンネルがリスナーによってどのように聞こえうるかのモデル化する空間化の機能を備え得る。バイノーラルレンダリングユニット102は、ヘッドフォンなどのヘッドセットを介する再生に好適な左チャンネル136Aと右チャンネル136B(これらは「チャンネル136」と総称されることがある)とを生成するためにSHC122をレンダリングし得る。図7の例に示すように、バイノーラルレンダリングユニット102は、BRIRフィルタ108と、BRIR調整ユニット106と、残余室内応答ユニット110と、BRIR SHC−領域変換ユニット112と、畳み込みユニット114と、結合ユニット116とを含む。
[0065]BRIRフィルタ108は、1つまたは複数のBRIRフィルタを含み、図3のBRIRフィルタ37の一例を表し得る。BRIRフィルタ108は、左および右のHRTFがそれぞれのBRIRに与える影響を表す、個別のBRIRフィルタ126A、126Bを含み得る。
[0066]BRIR調整ユニット106は、仮想のラウドスピーカーLの各々ごとの、それぞれ長さNを有するBRIRフィルタ126A、126Bの、L個のインスタンスを受信する。BRIRフィルタ126A、126Bは、すでに、静止サンプルを除去するために調整されていることがある。BRIR調整ユニット106は、それぞれのHRTFと、早期反射と、残余室内セグメントとを識別するためにBRIRフィルタ126A、126Bをセグメント化するために、上記の技法を適用し得る。BRIR調整ユニット106は、BRIR SHC−領域変換ユニット112にHRTFと早期反射セグメントとを、サイズ[a,L]の左および右の行列を表す行列129A、129Bとして与え、ここで、aはHRTFと早期反射セグメントとの連結の長さであり、Lは(仮想または実在の)ラウドスピーカーの数である。BRIR調整ユニット106は、残余室内応答ユニット110にBRIRフィルタ126A、126Bの残余室内セグメントを、サイズ[b,L]の左および右の残余室内行列128A、128Bとして与え、ここで、bは残余室内セグメントの長さであり、Lは(仮想または実在の)ラウドスピーカーの数である。
[0067]残余室内応答ユニット110は、SHC122によって図7に表すように、音場を記述する階層要素(たとえば、球面調和係数)の少なくとも幾分かの部分との畳み込みのために、左および右の共通の残余室内応答セグメントを計算またはさもなければ決定するために、上記の技法を適用し得る。すなわち、残余室内応答ユニット110は、左および右の残余室内行列128A、128Bを受信し、左および右の共通の残余室内応答セグメントを生成するために左および右それぞれの残余室内行列128A、128BをL個にわたって結合することができる。いくつかの例では、残余室内応答ユニット110は、左および右の残余室内行列128A、128BをL個にわたって平均化することによって結合を実施し得る。
[0068]次いで、残余室内応答ユニット110は、左および右の共通の残余室内応答セグメントと、チャンネル124Bとして図7に示すSHC122の少なくとも1つのチャンネルとの高速畳み込みを計算し得る。いくつかの例では、左および右の共通の残余室内応答セグメントは周囲を取り巻く無指向性の音を表すので、チャンネル124Bは、SHC122のWチャンネル(すなわち、0次)であり、それは、音場の無指向性部を符号化する。そのような例では、長さLengthのWチャンネルサンプルに関して、残余室内応答ユニット110による左および右の共通の残余室内応答セグメントとの高速畳み込みは、長さLengthの左および右の出力信号134A、134Bを生成する。
[0069]本明細書で使用する「高速畳み込み」および「畳み込み」という用語は、時間領域における畳み込み演算、ならびに周波数領域における点毎の(point-wise)乗算演算を指すことがある。言い換えれば、信号処理の当業者によく知られているように、時間領域における畳み込みは、周波数領域における点毎の乗算と等価であり、ここで時間領域および周波数領域は、互いの変換である。出力変換は、入力変換と伝達関数との点毎の積である。したがって、畳み込みおよび点毎の乗算(または単に「乗算」)は、それぞれの領域(ここでは時間および周波数)に関して行われる概念的に同様の演算を指すことができる。畳み込みユニット114、214、230;残余室内応答ユニット210、354;フィルタ384および残響386は、代替として、周波数領域における乗算を適用し得、ここでこれらの成分への入力は、時間領域ではなく周波数領域において与えられる。「高速畳み込み」または「畳み込み」として本明細書で説明する他の演算は、同様に、周波数領域における乗算と呼ばれることもあり、ここで、これらの演算への入力は、時間領域ではなく周波数領域で与えられる。
[0070]いくつかの例では、残余室内応答ユニット110は、共通の残余室内応答セグメントの開始時間に関する値をBRIR調整ユニット106から受信し得る。残余室内応答ユニット110は、BRIRフィルタ108に関するより早いセグメントとの結合を見越して、出力信号134A、134Bをゼロパディングするかまたはさもなければ遅延させ得る。
[0071]BRIR SHC−領域変換ユニット112(以後、「領域変換ユニット112」)は、左および右のBRIRフィルタ126A、126Bを球面調和領域に潜在的に変換し、次いでそのフィルタをL個にわたって潜在的に合計するために、SHCレンダリング行列をBRIR行列に適用する。領域変換ユニット112は、変換結果を、それぞれ、左および右のSHC−バイノーラルレンダリング行列130A、130Bとして出力する。行列129A、129Bが[a,L]のサイズである場合、SHC−バイノーラルレンダリング行列130A、130Bの各々は、フィルタをL個にわたって合計した後、[(N+1)2,a]のサイズになる(たとえば、式(4)〜(5)参照)。いくつかの例では、SHC−バイノーラルレンダリング行列130A、130Bは、実行時または準備時間において計算されるのではなく、音声再生デバイス100の中で構成される。いくつかの例では、SHC−バイノーラルレンダリング行列130A、130Bの複数のインスタンスは、音声再生デバイス100の中で構成され、音声再生デバイス100は、SHC124Aに適用するために、左および右一対の複数のインスタンスを選択する。
[0072]畳み込みユニット114は、左および右のバイノーラルレンダリング行列130A、130BとSHC124Aとを畳み込み、SHC124Aは、いくつかの例では、SHC122の次数から次数を削減することができる。周波数(たとえば、SHC)領域におけるSHC124Aに関して、畳み込みユニット114は、SHC124Aと左および右のバイノーラルレンダリング行列130A、130Bとのそれぞれの点毎の乗算を計算し得る。長さLengthのSHC信号に関して、畳み込みは、[Length,(N+1)2]のサイズの左および右のフィルタリングされたSHCチャンネル132A、132Bをもたらし、一般的に、球面調和領域の次数/副次数の結合の各々に関して各出力信号行列に関する行が存在する。
[0073]結合ユニット116は、バイノーラル出力信号136A、136Bを作成するために、左および右のフィルタリングされたSHCチャンネル132A、132Bと出力信号134A、134Bとを結合することができる。次いで、結合ユニット116は、バイノーラル出力信号136A、136Bを生成するために左および右のバイノーラル出力信号と左および右の出力信号134A、134Bとを結合する前に、HRTFに関する左および右のバイノーラル出力信号と早期エコー(反射)セグメントとを生成するために、左および右のフィルタリングされたSHCチャンネル132A、132Bの各々をL個にわたって別々に合計することができる。
[0074]図8は、本開示で説明するバイノーラル音声レンダリング技法の様々な態様を実施し得る音声再生デバイスの一例を示すブロック図である。音声再生デバイス200は、音声再生デバイスの例示的な例を表し得、図7の100はさらなる詳細である。
[0075]音声再生デバイス200は、SHC242の次数を削減するために、ビットストリーム240から入ってくるSHC242を処理する随意のSHC次数削減ユニット204を含み得る。随意のSHC次数削減は、SHC242(たとえば、Wチャンネル)の最高次数(たとえば、0次)のチャンネル262を残余室内応答ユニット210に与え、削減された次数のSHC242を畳み込みユニット230に与える。SHC次数削減ユニット204がSHC242の次数を削減しない例では、畳み込みユニット230は、SHC242と同等のSHC272を受信する。いずれにせよ、SHC272は、[Length,(N+1)2]の次元を有し、ここでNはSHC272の次数である。
[0076]BRIR調整ユニット206およびBRIRフィルタ208は、図7のBRIR調整ユニット106およびBRIRフィルタ108の例示的な例を表し得る。残余応答ユニット214の畳み込みユニット214は、上記で説明した技法を使用してBRIR調整ユニット206によって調整された共通の左および右の残余室内セグメント244A、244Bを受信し、畳み込みユニット214は、左および右の残余室内信号262A、262Bを生成するために共通の左および右の残余室内セグメント244A、244Bと最高次数のチャンネル262とを畳み込む。遅延ユニット216は、左および右の残余室内出力信号268A、268Bを生成するために、共通の左および右の残余室内セグメント244A、244Bに対するサンプルの開始の数で左および右の残余室内信号262A、262Bをゼロパディングすることができる。
[0077]BRIR SHC−領域変換ユニット220(以後、領域変換ユニット220)は、図7の領域変換ユニット112の例示的な例を表し得る。図示の例では、変換ユニット222は、[a,L]のサイズの左および右の行列を表す行列248A、248Bに(N+1)2次元のSHCレンダリング行列224を適用し、ここでaはHRTFと早期反射セグメントとの連結の長さであり、Lはラウドスピーカー(たとえば、仮想のラウドスピーカー)の数である。変換ユニット222は、次元[(N+1)2,a,L]を有するSHC−領域における左および右の行列252A、252Bを出力する。合計ユニット226は、次元[(N+1)2,a]を有する左および右の中間SHC−レンダリング行列254A、254Bを作成するために、左および右の行列252A、252Bの各々をL個にわたって合計し得る。削減ユニット228は、最小位相低減など、SHC272にSHC−レンダリング行列を適用すること、および最小位相低減を適用されている中間SHC−レンダリング行列254A、254Bのそれぞれの最小位相部の周波数応答を近似するようにIIRフィルタを設計するために平衡型モデル打切り法(Balanced Model Truncation method)を使用すること、についての計算の複雑さをさらに削減するために、上記で説明した技法を適用し得る。削減ユニット228は、左および右のSHC−レンダリング行列256A、256Bを出力する。
[0078]畳み込みユニット230は、中間信号258A、258Bを生成するためにSHC272の形態のSHCコンテンツをフィルタリングし、合計ユニット232は、左および右の信号260A、260Bを作成するために中間信号258A、258Bを合計する。結合ユニット234は、左および右のバイノーラル出力信号270A、270Bを生成するために左および右の残余室内出力信号268A、268Bと左および右の信号260A、260Bとを結合する。
[0079]いくつかの例では、バイノーラルレンダリングユニット202は、変換ユニット222によって生成されたSHC−バイノーラルレンダリング行列252A、252Bのうちの1つだけを使用することによって計算のさらなる削減を実施し得る。その結果、畳み込みユニット230は、左または右の信号の一方だけについて演算し、畳み込み演算を半分に削減することができる。そのような例では、合計ユニット232は、出力260A、260Bをレンダリングするときに、第2のチャンネルに関する条件付き決定を行う。
[0080]図9は、本開示で説明する技法による球面調和係数をレンダリングするための、バイノーラルレンダリングデバイスに関する例示的な演算のモードを示すフローチャートである。例示のために、例示的な演算のモードについて、図7の音声再生デバイス200に関して説明する。バイノーラル室内インパルス応答(BRIR)調整ユニット206は、BRIRフィルタ246A、246Bから方向依存性成分/セグメント、特に頭部伝達関数および早期エコーセグメントを抽出することによって、左および右それぞれのBRIRフィルタ246A、246Bを調整する(300)。左および右のBRIRフィルタ126A、126Bの各々は、1つまたは複数の対応するラウドスピーカーに関するBRIRフィルタを含み得る。BRIR調整ユニット106は、抽出された頭部伝達関数と早期エコーセグメントとの連結を、左および右の行列248A、248BとしてBRIR SHC−領域変換ユニット220に与える。
[0081]BRIR SHC−領域変換ユニット220は、球面調和(たとえば、HOA)領域内の左および右のフィルタ行列252A、252Bを生成するために、抽出された頭部伝達関数と早期エコーセグメントとを含む左および右のフィルタ行列248A、248Bを変換するためにHOAレンダリング行列224を適用する(302)。いくつかの例では、音声再生デバイス200は、左および右のフィルタ行列252A、252Bを用いて構成され得る。いくつかの例では、音声再生デバイス200は、ビットストリーム240の帯域外または帯域内の信号においてBRIRフィルタ208を受信し、その場合、音声再生デバイス200は、左および右のフィルタ行列252A、252Bを生成する。合計ユニット226は、左および右の中間SHC−レンダリング行列254A、254Bを含むSHC領域内のバイノーラルレンダリング行列を生成するために、それぞれの左および右のフィルタ行列252A、252Bをラウドスピーカーの次元にわたって合計する(304)。削減ユニット228は、左および右のSHC−レンダリング行列256A、256Bを生成するために、中間SHC−レンダリング行列254A、254Bをさらに削減し得る。
[0082]バイノーラルレンダリングユニット202の畳み込みユニット230は、左および右のフィルタリングされたSHC(たとえば、HOA)チャンネル258A、258Bを作成するために、左および右の中間SHC−レンダリング行列256A、256BをSHCコンテンツ(球面調和係数272など)に適用する(306)。
[0083]合計ユニット232は、方向依存性セグメントに関する左および右の信号260A、260Bを作成するために、左および右のフィルタリングされたSHCチャンネル258A、258Bの各々をSHC次元(N+1)2にわたって合計する(308)。次いで、結合ユニット116は、左および右のバイノーラル出力信号270A、270Bを含むバイノーラル出力信号を生成するために、左および右の信号260A、260Bと左および右の残余室内出力信号268A、268Bとを結合し得る。
[0084]図10Aは、本開示で説明する技法の様々な態様による、図7および図8の音声再生デバイスによって実施され得る例示的な演算のモード310を示す図である。演算のモード310は、図8の音声再生デバイス200に関して、後で本明細書で説明される。音声再生デバイス200のバイノーラルレンダリングユニット202は、BRIRデータ312、これはBRIRフィルタ208の例示的な例であり得ると、HOAレンダリング行列314、これはHOAレンダリング行列224の例示的な例であり得る、とを用いて構成され得る。音声再生デバイス200は、帯域内または帯域外のシグナリングチャンネル内のBRIRデータ312とHOAレンダリング行列314とをビットストリーム240と相対して受信し得る。この例におけるBRIRデータ312は、たとえば、L個の実在または仮想のラウドスピーカーを表すL個のフィルタを有し、L個のフィルタの各々は長さKである。L個のフィルタの各々は、左および右の成分を含み得る(「x2」)。いくつかの場合には、L個のフィルタの各々は、左または右に関する単一の成分を含むことがあり、その成分は、右または左のその相手の成分と対称である。これは、高速畳み込みのコストを削減し得る。
[0085]音声再生デバイス200のBRIR調整ユニット206は、セグメント化演算と結合演算とを適用することによってBRIRデータ312を調整し得る。具体的には、例示的な演算のモード310において、BRIR調整ユニット206は、本明細書で説明する技法によるL個のフィルタの各々を、行列315(次元[a,2,L])を作成するための結合の長さaのHRTFプラス早期エコーセグメントと、残余行列339(次元[b,2,L])を作成するための残余室内応答セグメントとにセグメント化する(324)。BRIRデータ312のL個のフィルタの長さKは、ほぼ、aとbとの合計である。変換ユニット222は、次元[(N+1)2,a,2,L]の行列317(これは左および右の行列252A、252Bの結合の例示的な例であり得る)を作成するために、(N+1)2次元のHOA/SHCレンダリング行列314を行列315のL個のフィルタに適用し得る。合計ユニット226は、次元[(N+1)2,a,2]を有する中間SHC−レンダリング行列335を作成するために、左および右の行列252A、252Bの各々をL個にわたって合計し得る(値2を有する第3の次元は左および右の成分を表し、中間SHC−レンダリング行列335は、左および右の両方の中間SHC−レンダリング行列254A、254Bの例示的な例として表すことができる)(326)。いくつかの例では、音声再生デバイス200は、HOAコンテンツ316(またはそれの削減されたバージョン、たとえばHOAコンテンツ321)に適用するための中間SHC−レンダリング行列335を用いて構成され得る。いくつかの例では、削減ユニット228は、行列317の左または右の成分の一方だけを使用することによって、さらなる削減を計算に適用し得る(328)。
[0086]音声再生デバイス200は、次数NIおよび長さLengthのHOAコンテンツ316を受信し、いくつかの態様では、その中の球面調和係数(SHC)の次数をNに削減するために次数削減演算を適用する(330)。NIは、入力((I)nput)HOAコンテンツ321の次数を示す。次数削減演算(330)のHOAコンテンツ321は、HOAコンテンツ316と同様に、SHC領域内にある。随意の次数削減演算はまた、最高次数(たとえば、0次)の信号319を生成し、高速畳み込み演算のために残余応答ユニット210に与える(338)。HOA次数削減ユニット204がHOAコンテンツ316の次数を削減しない例では、高速畳み込み適用演算(apply fast convolution operation)(332)は、削減された次数を持たない入力に対して演算する。いずれにしても、高速畳み込み演算(332)に入力されるHOAコンテンツ321は、次元[Length,(N+1)2]を有し、ここでNは次数である。
[0087]音声再生デバイス200は、左および右の成分、したがって次元[Length,(N+1)2,2]を有するHOA信号323を作成するために、HOAコンテンツ321と行列335との高速畳み込みを適用し得る(332)。ここでも、高速畳み込みは、周波数領域におけるHOAコンテンツ321と行列335との点毎の乗算、または時間領域における畳み込みを指すことができる。音声再生デバイス200は、次元[Length,2]を有する合計された信号325を作成するために、HOA信号323を(N+1)2にわたってさらに合計することができる(334)。
[0088]次に、残余行列339に戻ると、音声再生デバイス200は、次元「b,2」を有する共通の残余室内応答行列327を生成するために、本明細書で説明する技法に従ってL個の残余室内応答セグメントを結合することができる(336)。音声再生デバイス200は、次元[Length,2]を有する室内応答信号329を作成するために、0次のHOA信号319と共通の残余室内応答行列327との高速畳み込みを適用し得る(338)。残余行列339のL個の残余応答室内応答セグメントを生成するために、音声再生デバイス200は、BRIRデータ312のL個のフィルタのうちの(a+1)番目のサンプルにおいて開始する残余応答室内応答セグメントを取得したので、音声再生デバイス200は、次元[Length,2]を有する室内応答信号311を生成するためにa個のサンプルを遅延(たとえば、パディング)することによって初期のa個のサンプルを構成する(account for)(340)。
[0089]音声再生デバイス200は、次元[Length,2]を有する出力信号318を作成するために、合計された信号325と室内応答信号311とを、要素を加算することによって結合する(342)。このようにして、音声再生デバイスは、L個の残余室内応答セグメントの各々に関して高速畳み込みを適用することを回避し得る。バイノーラル音声出力信号に変換するために入力される22チャンネルに関して、これは、残余室内応答を生成するための高速畳み込みの数を、22から2に削減し得る。
[0090]図10Bは、本開示で説明する技法の様々な態様による、図7および図8の音声再生デバイスによって実施され得る例示的な演算のモード350を示す図である。演算のモード350は、図8の音声再生デバイス200に関して、後で本明細書で説明され、演算のモード310と同様である。しかしながら、演算のモード350は、最初に、HOAコンテンツを、L個の実在または仮想のラウドスピーカーに関して時間領域内のマルチチャンネルスピーカー信号にレンダリングすることと、次いで、本明細書で説明する技法に従ってスピーカーフィードの各々に効率的なBRIRフィルタリングを適用することと、を含む。そのために、音声再生デバイス200は、HOAコンテンツ321を、次元[Length,L]を有するマルチチャンネル音声信号333に変換する(344)。加えて、音声再生デバイスは、BRIRデータ312をSHC領域に変換しない。したがって、音声再生デバイス200による削減を信号314に適用することは、次元[a,2,L]を有する行列337を生成する(328)。
[0091]次いで、音声再生デバイス200は、次元[Length,L,2](左および右の成分を有する)を有するマルチチャンネル音声信号341を作成するために、マルチチャンネル音声信号333と行列337との高速畳み込み332を適用する(348)。次いで、音声再生デバイス200は、次元[Length,2]を有する信号325を作成するために、L個のチャンネル/スピーカーによるマルチチャンネル音声信号341を合計し得る(346)。
[0092]図11は、本開示で説明するバイノーラル音声レンダリング技法の様々な態様を実施し得る音声再生デバイス350の一例を示すブロック図である。単一のデバイス、すなわち図11の例における音声再生デバイス350として示されているが、本技法は、1つまたは複数のデバイスによって実施されてよい。したがって、本技法はこの点において限定されるべきではない。
[0093]その上、概して、図1〜図10Bの例に関して球面調和領域において適用されるとして上記で説明されているが、本技法はまた、5.1サラウンドサウンドフォーマット、7.1サラウンドサウンドフォーマット、および/または22.2サラウンドサウンドフォーマットなど、上記のサラウンドサウンドフォーマットに適合するチャンネルベースの信号を含む、任意の形態の音声信号に関して実施され得る。したがって、本技法はまた、球面調和領域内で指定された音声信号に限定されるべきではなく、任意の形態の音声信号に対して適用され得る。本明細書で使用するA「および/または」Bは、A、B、またはAとBとの結合を指すことができる。
[0094]図11の例に示すように、音声再生デバイス350は、図7の例に示す音声再生デバイス100に類似し得る。しかしながら、音声再生デバイス350は、一例として22.2サラウンドサウンドフォーマットに適合する一般的なチャンネルベースの音声信号に関する技法を演算またはさもなければ実施することができる。抽出ユニット104は、音声チャンネル352を抽出し得、ここで音声チャンネル352は、一般に「n」チャンネルを含み得、この例では、22.2サラウンドサウンドフォーマットに適合する22チャンネルを含むものと仮定される。これらのチャンネル352は、バイノーラルレンダリングユニット351の残余室内応答ユニット354とチャンネルごとの打切りフィルタユニット356の両方に与えられる。
[0095]上記で説明したように、BRIRフィルタ108は、1つまたは複数のBRIRフィルタを含み、図3のBRIRフィルタ37の一例を表し得る。BRIRフィルタ108は、左および右のHRTFがそれぞれのBRIRに与える影響を表す、個別のBRIRフィルタ126A、126Bを含み得る。
[0096]BRIR調整ユニット106は、BRIRフィルタ126A、126Bのn個のインスタンスを受信し、各チャンネルnそれぞれに関して、各BRIRフィルタは長さNを有する。BRIRフィルタ126A、126Bは、すでに、静止サンプルを除去するために調整されていることがある。BRIR調整ユニット106は、それぞれのHRTFと、早期反射と、残余室内セグメントとを識別するためにBRIRフィルタ126A、126Bをセグメント化するために、上記で説明した技法を適用し得る。BRIR調整ユニット106は、チャンネルごとの打切りフィルタユニット356にHRTFと早期反射セグメントとを、サイズ[a,L]の左および右の行列を表す行列129A、129Bとして与え、ここで、aはHRTFと早期反射セグメントとの連結の長さであり、nは(仮想または実在の)ラウドスピーカーの数である。BRIR調整ユニット106は、残余室内応答ユニット354にBRIRフィルタ126A、126Bの残余室内セグメントを、サイズ[b,L]の左および右の残余室内行列128A、128Bとして与え、ここで、bは残余室内セグメントの長さであり、nは(仮想または実在の)ラウドスピーカーの数である。
[0097]残余室内応答ユニット354は、音声チャンネル352との畳み込みのための左および右の共通の残余室内応答セグメントを計算またはさもなければ決定するために、上記で説明する技法を適用し得る。すなわち、残余室内応答ユニット110は、左および右の残余室内行列128A、128Bを受信し、左および右の共通の残余室内応答セグメントを生成するために左および右それぞれの残余室内行列128A、128Bをn個にわたって結合することができる。いくつかの例では、残余室内応答ユニット354は、左および右の残余室内行列128A、128Bをn個にわたって平均化することによって結合を実施し得る。
[0098]次いで、残余室内応答ユニット354は、左および右の共通の残余室内応答セグメントと、音声チャンネル352のうちの少なくとも1つのチャンネルとの高速畳み込みを計算し得る。いくつかの例では、残余室内応答ユニット352は、共通の残余室内応答セグメントの開始時間に関する値をBRIR調整ユニット106から受信し得る。残余室内応答ユニット354は、BRIRフィルタ108に関する、より早いセグメントとの結合を見越して、出力信号134A、134Bをゼロパディングするかまたはさもなければ遅延させ得る。出力信号134Aは左音声信号を表す一方で、出力信号134Bは右音声信号を表すことができる。
[0099]チャンネルごとの打切りフィルタユニット356(以後、「打切りフィルタユニット356」)は、HRTFとBRIRフィルタの早期反射セグメントとをチャンネル352に適用し得る。より具体的には、チャンネルごとの打切りフィルタユニット356は、HRTFとBRIRフィルタの早期反射セグメントとを表す行列129A、129Bをチャンネル352のそれぞれのチャンネルに適用し得る。いくつかの例では、行列129A、129Bは、単一の行列129を形成するように結合され得る。その上、一般的に、HRTFならびに早期反射行列129Aおよび129Bの各々のうちの左の1つと、HRTFならびに早期反射行列129Aおよび129Bの各々のうちの右の1つとが存在する。すなわち、一般的に、左耳および右耳に関するHRTFと早期反射行列とが存在する。チャンネルごとの方向ユニット356は、左および右のフィルタリングされたチャンネル358Aおよび358Bを出力するために、左および右の行列129A、129Bの各々を適用し得る。結合ユニット116は、バイノーラル出力信号136A、136Bを作成するために、左のフィルタリングされたチャンネル358Aと出力信号134Aとを結合する(または、言い換えればミックスする)一方で、右のフィルタリングされたチャンネル358Bと出力信号134Bとを結合する(または、言い換えればミックスする)ことができる。バイノーラル出力信号136Aは左の音声チャンネルに対応し、バイノーラル出力信号136Bは右の音声チャンネルに対応することができる。
[0100]いくつかの例では、バイノーラルレンダリングユニット351は、残余室内応答ユニット354が、チャンネルごとの打切りフィルタユニット356の演算と同時に演算するように、残余室内応答ユニット354とチャンネルごとの打切りフィルタユニット356とを互いに同時に起動し得る。すなわち、いくつかの例では、残余室内応答ユニット354は、バイノーラル出力信号136A、136Bが生成され得る速度を改善するために、チャンネルごとの打切りフィルタユニット356と並列に(しかし、同時でないことが多い)演算することが多い。潜在的にカスケード接続方式で演算するように様々な上記の図において示しているが、本技法は、別段に具体的に規定されていない限り、本開示で説明する説明するユニットまたはモジュールのいずれもの同時演算または並列演算を提供し得る。
[0101]図12は、本開示で説明する技法の様々な態様による、図11の音声再生デバイス350によって実施され得るプロセス380を示す図である。プロセス380は、各BRIRを2つの部分:(a)左フィルタ384AL〜384NLおよび右フィルタ384AR〜384NR(総称して「フィルタ384」)によって表されるHRTFおよび早期反射の効果を組み込む、より小さい構成要素、および(b)元のBRIRのすべての末尾の特性から生成され、左残響フィルタ386Lおよび右残響フィルタ386R(総称して「共通のフィルタ386」)によって表される共通の「残響の末尾」に分解することを達成する。プロセス380に示すチャンネルごとのフィルタ384は、上記の部分(a)を表す一方で、プロセス380に示す共通のフィルタ386は、上記の部分(b)を表すことができる。
[0102]プロセス380は、不可聴成分を除去し、HRTF/早期反射を備える成分と後期反射/拡散による成分とを決定するためにBRIRを解析することによってこの分解を実施する。これは、部分(a)に関する、一例として2704タップ(tap)の長さのFIRフィルタと、部分(b)に関する、別の例として15232タップの長さのFIRフィルタとをもたらす。プロセス380によれば、音声再生デバイス350は、より短いFIRフィルタだけを、個別のnチャンネルの各々に適用し得、nは、演算396において例示のために22であると仮定されている。この演算の複雑性は、以下で再生される式(8)における第1の部分の計算(4096点のFFTを使用する)において表され得る。プロセス380では、音声再生デバイス350は、共通の「残響の末尾」を、22チャンネルの各々にではなく、演算398においてそれらすべての加法的なミックスに適用し得る。この複雑性は、式(8)における複雑性の計算の第2の半分において表される。
[0103]この点において、プロセス380は、複数のNチャンネルからの音声コンテンツをミックスすることに基づいて、合成音声信号を生成するバイノーラル音声レンダリングの方法を表し得る。加えて、プロセス380は、さらに、合成音声信号を、遅延によってNチャンネルフィルタの出力と整列させ得、各チャンネルフィルタは、打切りBRIRフィルタを含む。その上、プロセス380では、音声再生デバイス350は、次いで、演算398において共通の合成残余室内インパルス応答を用いて整列合成音声信号をフィルタリングし、バイノーラル音声出力の左成分388Lおよび右成分388Rのために、演算390Lおよび390Rにおいて、各チャンネルフィルタの出力とフィルタリングされた整列合成音声信号とをミックスすることができる。
[0104]いくつかの例では、打切りBRIRフィルタおよび共通の合成残余インパルス応答は、メモリにプリロードされる。
[0105]いくつかの例では、整列合成音声信号のフィルタリングは、時間周波数領域内で実施される。
[0106]いくつかの例では、整列合成音声信号のフィルタリングは、畳み込みを介して時間領域内で実施される。
[0107]いくつかの例では、打切りBRIRフィルタおよび共通の合成残余インパルス応答は、分解分析法に基づく。
[0108]いくつかの例では、分解分析法は、N個の室内インパルス応答の各々に対して実施され、N個の打切り室内インパルス応答とN個の残余インパルス応答とをもたらす(ここでNは、nまたはn超として示されることがある)。
[0109]いくつかの例では、打切りインパルス応答は、各室内インパルス応答の全長さの40パーセント未満を表す。
[0110]いくつかの例では、打切りインパルス応答は、111と17,830との間のタップ範囲を含む。
[0111]いくつかの例では、N個の残余インパルス応答の各々は、複雑性を削減する共通の合成残余室内応答内に結合される。
[0112]いくつかの例では、各チャンネルフィルタの出力と、フィルタリングされた整列合成音声信号とをミックスすることは、左のスピーカー出力に関するミキシングの第1のセットと右のスピーカー出力に関するミキシングの第2のセットとを含む。
[0113]様々な例では、上記で説明したプロセス380の様々な例またはそれらの任意の結合の方法は、メモリおよび1つまたは複数のプロセッサを備えるデバイスと、本方法の各ステップを実施するための手段を備えた装置と、非一時的コンピュータ可読記憶媒体上に記憶された命令を実行することによって本方法の各ステップを実施する1つまたは複数のプロセッサとによって実施され得る。
[0114]その上、上記で説明した例のいずれかに記載される特定の特徴のいずれも、説明した技法の有益な例の中に組み合わされ得る。すなわち、特定の特徴のいずれも、一般に、本技法のすべての例に適用可能である。本技法の様々な例について説明した。
[0115]本開示で説明した技法は、ある場合には、可聴のBRIRセットにわたってサンプル111〜17830だけを識別することができる。例示的な室内の容積からミキシング時間Tmp95を計算し、本技法は、次いで、53.6msの後、すべてのBRIRに共通の残響の末尾を共有させることができ、15232のサンプル長の共通の残響の末尾と、残留する2704サンプルのHRTF+反射インパルスとをもたらし、3msのクロスフェードがそれらの間に存在する。計算コスト削減(break down)に関して、以下の項目が到達され得る。
[0116]共通の残響の末尾:10×6×log2(2×15232/10)。
[0117]残留するインパルス:22×6×log2(2×4096)、1フレーム内でそれを行うために4096のFFTを使用する。
[0118]追加の22の加算。
[0119]その結果、最終の性能指数は、したがって、ほぼCmod=max(100×(Cconv−C)/Cconv,0)=88.0に等しく、ここで
Figure 2016523464
[0120]ここでCconvは最適化されていない実装(implementation):
Figure 2016523464
の推定であり、
[0121]Cは何らかの態様であり、2つの付加的な要素:
Figure 2016523464
によって決定され得る。
[0122]したがって、いくつかの態様では、性能指数は、Cmod=87.35。
[0123]Bn(z)として示されるBRIRフィルタは、2つの関数BTn(z)とBRn(z)とに分解され得、それらはそれぞれ、打切りBRIRフィルタと残響BRIRフィルタとを示す。上記の部分(a)はこの打切りBRIRフィルタを指す一方で、上記の部分(b)は残響BRIRフィルタを指し得る。次いで、Bn(z)はBTn(z)+(z-m*BRn(z))に等しくし得、ここでmは遅延を示す。したがって、出力信号Y(z)は、
Figure 2016523464
として計算され得る。
[0124]プロセス380は、共通の合成の残響の末尾のセグメントを導出するためにBRn(z)を解析し得、ここでこの共通のBR(z)は、チャンネル固有のBRn(z)の代わりに適用され得る。この共通の(またはチャンネル全般の)合成BR(z)が使用されるとき、Y(z)は、
Figure 2016523464
として計算され得る。
[0125]例に応じて、本明細書で説明された方法のいずれものある行為またはイベントは、異なる順序で実行可能であり、追加されてもよいし、マージされてもよいし、全体的に除外されてもよい(たとえば、すべての説明された行為またはイベントが方法の実施に必要とは限らない)ことを理解されたい。その上、ある例では、行為またはイベントは、たとえば、マルチスレッド処理、割込み処理、または複数のプロセッサによって、順次ではなく、同時に実行されることがある。さらに、本開示のある態様は、わかりやすいように、単一のデバイス、モジュール、またはユニットによって実行されると説明されているが、本開示の技法は、デバイス、ユニット、またはモジュールの組合せによって実行されてよいことを理解されたい。
[0126]1つまたは複数の例では、説明された機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実施されてよい。ソフトウェアで実施される場合、これらの機能は、コンピュータ可読媒体上に1つまたは複数の命令またはコードとして記憶または送信され、ハードウェアベースの処理ユニットによって実行されてもよい。コンピュータ可読媒体は、たとえば、通信プロトコルに従って、ある場所から別の場所へのコンピュータプログラムの転送を支援する任意の媒体を含む、データ記憶媒体または通信媒体などの有形媒体に対応するコンピュータ可読記憶媒体を含み得る。
[0127]このようにして、コンピュータ可読媒体は、一般に、(1)非一時的である有形のコンピュータ可読記憶媒体または(2)信号もしくはキャリア波などの通信媒体に相当し得る。データ記憶媒体は、本開示で説明する技法の実装のために、命令、コードおよび/またはデータ構造を取り出すために1つもしくは複数のコンピュータまたは1つもしくは複数のプロセッサによってアクセスされ得る、任意の利用可能な媒体であり得る。コンピュータプログラム製品は、コンピュータ可読媒体を含んでもよい。
[0128]例として、それに限定されず、そのようなコンピュータ可読記憶媒体は、RAM、ROM、EEPROM(登録商標)、CD−ROMもしくは他の光ディスク記憶装置、磁気ディスク記憶装置もしくは他の磁気記憶デバイス、フラッシュメモリ、または命令またはデータ構造の形態で所望のプログラムコードを記憶するために使用可能であり、コンピュータによってアクセス可能な他の任意の媒体を備えることができる。さらに、いかなる接続もコンピュータ可読媒体と適切に呼ばれる。たとえば、命令が、ウェブサイト、サーバ、または他の遠隔ソースから、同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線(DSL)、または赤外線、無線、およびマイクロ波などのワイヤレス技術を使用して伝送される場合、同軸ケーブル、光ファイバケーブル、ツイストペア、DSL、または赤外線、無線、マイクロ波などのワイヤレス技術は、媒体の定義に含まれる。
[0129]ただし、コンピュータ可読記憶媒体およびデータ記憶媒体は、接続、搬送波、信号、または他の一時的媒体を含まず、代わりに、非一時的な有形記憶媒体を対象とすることを理解されたい。本明細書で使用するディスク(disk)およびディスク(disc)は、コンパクトディスク(disc)(CD)、レーザーディスク(登録商標)(disc)、光ディスク(disc)、デジタル多用途ディスク(disc)(DVD)、フロッピー(登録商標)ディスク(disk)およびblu−ray(登録商標)ディスク(disc)を含み、ディスク(disk)は、通常、データを磁気的に再生し、ディスク(disc)は、データをレーザーで光学的に再生する。上述の組合せもコンピュータ可読媒体の範囲内に含まれるべきである。
[0130]命令は、1つまたは複数のデジタルシグナルプロセッサ(DSP)、汎用マイクロプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブルロジックアレイ(FPGA)、または他の同等の統合された、もしくは個別の論理回路などの、1つまたは複数のプロセッサによって実行され得る。したがって、「プロセッサ」という用語は、本明細書において、前述の構造のうちの任意のものまたは本明細書に記載される技法の実施のために適当な任意の他の構造を参照し得る。加えて、いくつかの態様では、本明細書に記載される機能性は、符号化および復号のために構成され、または組み合わされたコーデックに組み込まれる、専用のハードウェア内および/またはソフトウェアモジュール内で提供され得る。また、技法は、1つまたは複数の回路または論理素子内で完全に実施されてよい。
[0131]本開示の技法は、ワイヤレスハンドセット、集積回路(IC)またはICのセット(たとえば、チップセット)を含む、多種多様なデバイスまたは装置で実装され得る。様々な構成要素、モジュール、またはユニットは、開示された技法を実行するように構成されるデバイスの機能上の態様を強調するために、本開示に記載されるが、必ずしも異なるハードウェアユニットによる実現を求めるとは限らない。むしろ、上記で説明したように、様々なユニットは、コーデックハードウェアユニットの中で組み合わされ、または、上記で説明した1つまたは複数のプロセッサを含む、適切なソフトウェアおよび/またはファームウェアと一緒に相互作用するハードウェアユニットの集合によって提供され得る。
[0132]本技法の様々な実施形態が説明された。これらおよび他の実施形態は以下の特許請求の範囲内に入る。
[0132]本技法の様々な実施形態が説明された。これらおよび他の実施形態は以下の特許請求の範囲内に入る。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
[C1]
バイノーラル音声レンダリングの方法であって、
複数のバイノーラル室内インパルス応答フィルタの各々に関する複数のセグメントを決定すること、ここにおいて、前記複数のバイノーラル室内インパルス応答フィルタの各々は、残余室内応答セグメントと、フィルタ応答が音場内の位置に依存する少なくとも1つの方向依存性セグメントとを備える、と、
複数の変換されたバイノーラル室内インパルス応答フィルタを生成するために、複数の階層要素の領域に対応する領域に、前記複数のバイノーラル室内インパルス応答フィルタのうちの少なくとも1つの方向依存性セグメントの各々を変換すること、ここにおいて、前記複数の階層要素は前記音場を記述する、と、
前記音場をレンダリングするために、前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との高速畳み込みを実施することと、
を備える、方法。
[C2]
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施することが、前記バイノーラル室内インパルス応答フィルタの前記残余室内応答セグメントと前記複数の階層要素との結合の高速畳み込みを実施することを備える、C1に記載の方法。
[C3]
前記複数の変換されたバイノーラル室内インパルス応答フィルタが、左の変換されたバイノーラル室内インパルス応答フィルタと右の変換されたバイノーラル室内インパルス応答フィルタとを備え、
前記複数の変換されたバイノーラル室内インパルス応答フィルタの各々が、音源から直接放射する圧力波に対するインパルス応答を表す頭部伝達関数セグメントを備え、前記方法が、
前記複数のバイノーラル室内インパルス応答フィルタのうちの1つに関する結合された頭部伝達関数セグメントを作成するために、前記左の変換されたバイノーラル室内インパルス応答フィルタの頭部伝達関数セグメントと前記右の変換されたバイノーラル室内インパルス応答フィルタの頭部伝達関数セグメントとを結合することをさらに備え、
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施することが、前記音場をレンダリングするために、前記結合された頭部伝達関数セグメントと前記複数の階層要素のうちの階層要素との高速畳み込みを実施することを備える、C1に記載の方法。
[C4]
前記左の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントと前記右の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントとを結合することが、前記複数のバイノーラル室内インパルス応答フィルタのうちの前記1つに関する頭部伝達関数セグメントを近似する最小位相フィルタを生成するために、前記左の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントと前記右のバイノーラル室内インパルス応答の変換されたフィルタの前記頭部伝達関数セグメントとのうちの少なくとも一方に、最小位相再構成を適用することを備え、
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施することが、前記音場をレンダリングするために、前記最小位相フィルタと前記複数の階層要素のうちの前記階層要素との高速畳み込みを実施することを備える、C3に記載の方法。
[C5]
前記左の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントと前記右の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントとを結合することが、前記複数の変換されたバイノーラル室内インパルス応答フィルタのうちの前記1つに関する頭部伝達関数セグメントを近似する最小位相フィルタを生成するため、および残余位相フィルタを作成するために、前記左の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントと前記右の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントとのうちの少なくとも一方に、最小位相再構成を適用することを備え、前記方法が、
前記残余位相フィルタから両耳間時間差を推定することをさらに備え、
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施することが、前記音場を両耳にレンダリングするために、畳み込みを作成して前記両耳間時間差を適用するために、前記最小位相フィルタと前記複数の階層要素のうちの前記階層要素との前記高速畳み込みを実施することを備える、C3に記載の方法。
[C6]
前記複数の変換されたバイノーラル室内インパルス応答フィルタが、左の変換されたバイノーラル室内インパルス応答フィルタと右の変換されたバイノーラル室内インパルス応答フィルタとを備え、
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施することが、前記左のバイノーラル室内インパルス応答フィルタまたは前記右のバイノーラル室内インパルス応答フィルタのいずれか一方のみと前記複数の階層要素との高速畳み込みを実施することを備える、C1に記載の方法。
[C7]
前記複数のバイノーラル室内インパルス応答フィルタの各々が、インパルスに起因する応答サンプルを含まない初期静止位相を備え、前記方法が、
前記複数のバイノーラル室内インパルス応答フィルタのうちの任意の応答サンプルの最早の開始を決定することをさらに備え、前記最早の開始が前記複数のバイノーラル室内インパルス応答フィルタに関する共通の初期静止位相を決定し、
前記複数のバイノーラル室内インパルス応答フィルタの各々に関する前記複数のセグメントを決定することが、前記共通の初期静止位相の一部である前記複数のバイノーラル室内インパルス応答フィルタのサンプルを含まないように、前記複数のバイノーラル室内インパルス応答フィルタの前記少なくとも1つの方向依存性セグメントを決定することを備える、C1に記載の方法。
[C8]
前記複数のバイノーラル室内インパルス応答フィルタの各々に関する前記複数のセグメントが、残余室内応答セグメントを備え、前記方法が、
共通の残余室内応答セグメントを作成するために、前記複数のバイノーラル室内インパルス応答フィルタの各々に関する前記残余室内応答セグメントを結合することと、
前記複数のバイノーラル室内インパルス応答フィルタの各々に関する前記複数のセグメントの前記残余室内応答セグメントと前記複数の階層要素との高速畳み込みを実施することなく音場に対する室内応答をレンダリングするために、前記共通の残余室内応答セグメントと前記複数の階層要素との高速畳み込みを実施することと、
をさらに備える、C1に記載の方法。
[C9]
前記共通の残余室内応答セグメントと前記複数の階層要素との前記高速畳み込みを実施することが、前記音場に対する前記残余室内応答をレンダリングするために、前記複数の階層要素のうちの最高次数の要素を有する前記共通の残余室内応答セグメントだけの高速畳み込みを実施することを備える、C8に記載の方法。
[C10]
前記音場をレンダリングするための前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みが信号を作成し、前記方法が、
音場に対する遅延残余室内応答を作成するために、前記音場に対する前記室内応答をゼロパディングすることと、
前記音場をレンダリングするために、前記音場に対する前記遅延室内応答と前記信号とを結合することと、
をさらに備える、C8に記載の方法。
[C11]
フィルタ行列を生成するために、前記複数の変換されたバイノーラル室内インパルス応答フィルタを合計することをさらに備え、
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施することが、前記音場をレンダリングするために、前記フィルタ行列と前記複数の階層要素との高速畳み込みを実施することを備える、C1に記載の方法。
[C12]
前記複数の階層要素が、球面調和係数を備える、C1に記載の方法。
[C13]
前記複数の階層要素が、高次アンビソニックスを備える、C1に記載の方法。
[C14]
1つまたは複数のプロセッサを備えるデバイスであって、
複数のバイノーラル室内インパルス応答フィルタの各々に関する複数のセグメントを決定すること、ここにおいて、前記複数のバイノーラル室内インパルス応答フィルタの各々は、残余室内応答セグメントと、フィルタ応答が音場内の位置に依存する少なくとも1つの方向依存性セグメントとを備える、と、
複数の変換されたバイノーラル室内インパルス応答フィルタを生成するために、複数の階層要素の領域に対応する領域に、前記複数のバイノーラル室内インパルス応答フィルタのうちの少なくとも1つの方向依存性セグメントの各々を変換すること、ここにおいて、前記複数の階層要素は前記音場を記述する、と、
前記音場をレンダリングするために、前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との高速畳み込みを実施することと、
を行うように構成される、デバイス。
[C15]
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施するために、前記1つまたは複数のプロセッサが、前記バイノーラル室内インパルス応答フィルタの前記残余室内応答セグメントと前記複数の階層要素との結合の高速畳み込みを実施するようにさらに構成される、C14に記載のデバイス。
[C16]
前記複数の変換されたバイノーラル室内インパルス応答フィルタが、左の変換されたバイノーラル室内インパルス応答フィルタと右の変換されたバイノーラル室内インパルス応答フィルタとを備え、
前記複数の変換されたバイノーラル室内インパルス応答フィルタの各々が、音源から直接放射する圧力波に対するインパルス応答を表す頭部伝達関数セグメントを備え、
前記1つまたは複数のプロセッサが、前記複数のバイノーラル室内インパルス応答フィルタのうちの1つに関する結合された頭部伝達関数セグメントを作成するために、前記左の変換されたバイノーラル室内インパルス応答フィルタの頭部伝達関数セグメントと前記右の変換されたバイノーラル室内インパルス応答フィルタの頭部伝達関数セグメントとを結合するようにさらに構成され、
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施するために、前記1つまたは複数のプロセッサが、前記音場をレンダリングするために、前記結合された頭部伝達関数セグメントと前記複数の階層要素のうちの階層要素との高速畳み込みを実施するようにさらに構成される、C14に記載のデバイス。
[C17]
前記左の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントと前記右の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントとを結合するために、前記1つまたは複数のプロセッサが、前記複数のバイノーラル室内インパルス応答フィルタのうちの前記1つに関する頭部伝達関数セグメントを近似する最小位相フィルタを生成するために、前記左の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントと前記右のバイノーラル室内インパルス応答の変換されたフィルタの前記頭部伝達関数セグメントとのうちの少なくとも一方に、最小位相再構成を適用するようにさらに構成され、
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施するために、前記1つまたは複数のプロセッサが、前記音場をレンダリングするために、前記最小位相フィルタと前記複数の階層要素のうちの前記階層要素との高速畳み込みを実施するようにさらに構成される、C16に記載のデバイス。
[C18]
前記左の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントと前記右の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントとを結合するために、前記1つまたは複数のプロセッサが、前記複数の変換されたバイノーラル室内インパルス応答フィルタのうちの前記1つに関する頭部伝達関数セグメントを近似する最小位相フィルタを生成するため、および残余位相フィルタを作成するために、前記左の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントと前記右の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントとのうちの少なくとも一方に、最小位相再構成を適用するようにさらに構成され、
前記1つまたは複数のプロセッサが、前記残余位相フィルタから両耳間時間差を推定するようにさらに構成され、
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施するために、前記1つまたは複数のプロセッサが、前記音場を両耳にレンダリングするために、畳み込みを作成して前記両耳間時間差を適用するために、前記最小位相フィルタと前記複数の階層要素のうちの前記階層要素との前記高速畳み込みを実施するようにさらに構成される、C16に記載のデバイス。
[C19]
前記複数の変換されたバイノーラル室内インパルス応答フィルタが、左の変換されたバイノーラル室内インパルス応答フィルタと右の変換されたバイノーラル室内インパルス応答フィルタとを備え、
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施するために、前記1つまたは複数のプロセッサが、前記左のバイノーラル室内インパルス応答フィルタまたは前記右のバイノーラル室内インパルス応答フィルタのいずれかのみと前記複数の階層要素との高速畳み込みを実施するようにさらに構成される、C14に記載のデバイス。
[C20]
前記複数のバイノーラル室内インパルス応答フィルタの各々が、インパルスに起因する応答サンプルを含まない初期静止位相を備え、
前記1つまたは複数のプロセッサが、前記複数のバイノーラル室内インパルス応答フィルタのうちの任意の応答サンプルの最早の開始を決定するようにさらに構成され、前記最早の開始が前記複数のバイノーラル室内インパルス応答フィルタに関する共通の初期静止位相を決定し、
前記複数のバイノーラル室内インパルス応答フィルタの各々に関する前記複数のセグメントを決定するために、前記1つまたは複数のプロセッサが、前記共通の初期静止位相の一部である前記複数のバイノーラル室内インパルス応答フィルタのサンプルを含まないように、前記複数のバイノーラル室内インパルス応答フィルタのうちの前記少なくとも1つの方向依存性セグメントを決定するようにさらに構成される、C14に記載のデバイス。
[C21]
前記複数のバイノーラル室内インパルス応答フィルタの各々に関する前記複数のセグメントが、残余室内応答セグメントを備え、
前記1つまたは複数のプロセッサが、共通の残余室内応答セグメントを作成するために、前記複数のバイノーラル室内インパルス応答フィルタの各々に関する前記残余室内応答セグメントを結合するようにさらに構成され、
前記1つまたは複数のプロセッサが、前記複数のバイノーラル室内インパルス応答フィルタの各々に関する前記複数のセグメントの前記残余室内応答セグメントと前記複数の階層要素との高速畳み込みを実施することなく音場に対する室内応答をレンダリングするために、前記共通の残余室内応答セグメントと前記複数の階層要素との高速畳み込みを実施するようにさらに構成される、C14に記載のデバイス。
[C22]
前記共通の残余室内応答セグメントと前記複数の階層要素との前記高速畳み込みを実施するために、前記1つまたは複数のプロセッサが、前記音場に対する前記残余室内応答をレンダリングするために、前記複数の階層要素のうちの最高次数の要素を有する前記共通の残余室内応答セグメントだけの高速畳み込みを実施するようにさらに構成される、C21に記載のデバイス。
[C23]
前記音場をレンダリングするための、前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みが信号を作成し、
前記1つまたは複数のプロセッサが、
音場に対する遅延残余室内応答を作成するために、前記音場に対する前記室内応答をゼロパディングすることと、
前記音場をレンダリングするために、前記音場に対する前記遅延室内応答と前記信号とを結合することと、
を行うようにさらに構成される、C21に記載のデバイス。
[C24]
前記1つまたは複数のプロセッサが、フィルタ行列を生成するために、前記複数の変換されたバイノーラル室内インパルス応答フィルタを合計するようにさらに構成され、
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施するために、前記1つまたは複数のプロセッサが、前記音場をレンダリングするために、前記フィルタ行列と前記複数の階層要素との高速畳み込みを実施するようにさらに構成される、C14に記載のデバイス。
[C25]
前記複数の階層要素が、球面調和係数を備える、C14に記載のデバイス。
[C26]
前記複数の階層要素が、高次アンビソニックスを備える、C14に記載のデバイス。
[C27]
複数のバイノーラル室内インパルス応答フィルタの各々に関する複数のセグメントを決定するための手段、ここにおいて、前記複数のバイノーラル室内インパルス応答フィルタの各々は、残余室内応答セグメントと、フィルタ応答が音場内の位置に依存する少なくとも1つの方向依存性セグメントとを備える、と、
複数の変換されたバイノーラル室内インパルス応答フィルタを生成するために、複数の階層要素の領域に対応する領域に、前記複数のバイノーラル室内インパルス応答フィルタのうちの少なくとも1つの方向依存性セグメントの各々を変換するための手段、ここにおいて、前記複数の階層要素は前記音場を記述する、と、
前記音場をレンダリングするために、前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との高速畳み込みを実施するための手段と、
を備える、装置。
[C28]
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施するための前記手段が、前記バイノーラル室内インパルス応答フィルタの前記残余室内応答セグメントと前記複数の階層要素との結合の高速畳み込みを実施するための手段を備える、C27に記載の装置。
[C29]
前記複数の変換されたバイノーラル室内インパルス応答フィルタが、左の変換されたバイノーラル室内インパルス応答フィルタと右の変換されたバイノーラル室内インパルス応答フィルタとを備え、
前記複数の変換されたバイノーラル室内インパルス応答フィルタの各々が、音源から直接放射する圧力波に対するインパルス応答を表す頭部伝達関数セグメントを備え、前記装置が、
前記複数のバイノーラル室内インパルス応答フィルタのうちの1つに関する結合された頭部伝達関数セグメントを作成するために、前記左の変換されたバイノーラル室内インパルス応答フィルタの頭部伝達関数セグメントと前記右の変換されたバイノーラル室内インパルス応答フィルタの頭部伝達関数セグメントとを結合するための手段をさらに備え、
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施するための前記手段が、前記音場をレンダリングするために、前記結合された頭部伝達関数セグメントと前記複数の階層要素のうちの階層要素との高速畳み込みを実施するための手段を備える、C27に記載の装置。
[C30]
前記左の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントと前記右の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントとを結合するための前記手段が、前記複数のバイノーラル室内インパルス応答フィルタのうちの前記1つに関する頭部伝達関数セグメントを近似する最小位相フィルタを生成するために、前記左の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントと前記右のバイノーラル室内インパルス応答の変換されたフィルタの前記頭部伝達関数セグメントとのうちの少なくとも一方に、最小位相再構成を適用するための手段を備え、
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施するための前記手段が、前記音場をレンダリングするために、前記最小位相フィルタと前記複数の階層要素のうちの前記階層要素との高速畳み込みを実施するための手段を備える、C29に記載の装置。
[C31]
前記左の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントと前記右の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントとを結合するための前記手段が、前記複数の変換されたバイノーラル室内インパルス応答フィルタのうちの前記1つに関する頭部伝達関数セグメントを近似する最小位相フィルタを生成するため、および残余位相フィルタを作成するために、前記左の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントと前記右の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントとのうちの少なくとも一方に、最小位相再構成を適用するための手段を備え、前記装置が、
前記残余位相フィルタから両耳間時間差を推定するための手段をさらに備え、
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施するための前記手段が、前記音場を両耳にレンダリングするために、畳み込みを作成して前記両耳間時間差を適用するために、前記最小位相フィルタと前記複数の階層要素のうちの前記階層要素との前記高速畳み込みを実施するための手段を備える、C29に記載の装置。
[C32]
前記複数の変換されたバイノーラル室内インパルス応答フィルタが、左の変換されたバイノーラル室内インパルス応答フィルタと右の変換されたバイノーラル室内インパルス応答フィルタとを備え、
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施するための前記手段が、前記左のバイノーラル室内インパルス応答フィルタまたは前記右のバイノーラル室内インパルス応答フィルタのいずれかのみと前記複数の階層要素との高速畳み込みを実施するための手段を備える、C27に記載の装置。
[C33]
前記複数のバイノーラル室内インパルス応答フィルタの各々が、インパルスに起因する応答サンプルを含まない初期静止位相を備え、前記装置が、
前記複数のバイノーラル室内インパルス応答フィルタのうちの任意の応答サンプルの最早開始を決定するための手段をさらに備え、前記最早開始が前記複数のバイノーラル室内インパルス応答フィルタに関する共通の初期静止位相を決定し、
前記複数のバイノーラル室内インパルス応答フィルタの各々に関する前記複数のセグメントを決定するための前記手段が、前記共通の初期静止位相の一部である前記複数のバイノーラル室内インパルス応答フィルタのサンプルを含まないように、前記複数のバイノーラル室内インパルス応答フィルタのうちの前記少なくとも1つの方向依存性セグメントを決定するための手段を備える、C27に記載の装置。
[C34]
前記複数のバイノーラル室内インパルス応答フィルタの各々に関する前記複数のセグメントが、残余室内応答セグメントを備え、前記装置が、
共通の残余室内応答セグメントを作成するために、前記複数のバイノーラル室内インパルス応答フィルタの各々に関する前記残余室内応答セグメントを結合するための手段と、
前記複数のバイノーラル室内インパルス応答フィルタの各々に関する前記複数のセグメントの前記残余室内応答セグメントと前記複数の階層要素との高速畳み込みを実施することなく音場に対する室内応答をレンダリングするために、前記共通の残余室内応答セグメントと前記複数の階層要素との高速畳み込みを実施するための手段と、
をさらに備える前記装置をさらに備える、C27に記載の装置。
[C35]
前記共通の残余室内応答セグメントと前記複数の階層要素との前記高速畳み込みを実施するための前記手段が、前記音場に対する前記残余室内応答をレンダリングするために、前記複数の階層要素のうちの最高次数の要素を有する前記共通の残余室内応答セグメントだけの高速畳み込みを実施するための手段を備える、C34に記載の装置。
[C36]
前記音場をレンダリングするための前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みが信号を作成し、前記装置が、
音場に対する遅延残余室内応答を作成するために、前記音場に対する前記室内応答をゼロパディングするための手段と、
前記音場をレンダリングするために、前記音場に対する前記遅延室内応答と前記信号とを結合するための手段と、
をさらに備える、C34に記載の装置。
[C37]
フィルタ行列を生成するために、前記複数の変換されたバイノーラル室内インパルス応答フィルタを合計するための手段をさらに備え、
前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施するための前記手段が、前記音場をレンダリングするために、前記フィルタ行列と前記複数の階層要素との高速畳み込みを実施するための手段を備える、C27に記載の装置。
[C38]
前記複数の階層要素が、球面調和係数を備える、C27に記載の装置。
[C39]
前記複数の階層要素が、高次アンビソニックスを備える、C27に記載の装置。
[C40]
実行されると、1つまたは複数のプロセッサに、
複数のバイノーラル室内インパルス応答フィルタの各々に関する複数のセグメントを決定すること、ここにおいて、前記複数のバイノーラル室内インパルス応答フィルタの各々は、残余室内応答セグメントと、フィルタ応答が音場内の位置に依存する少なくとも1つの方向依存性セグメントとを備える、と、
複数の変換されたバイノーラル室内インパルス応答フィルタを生成するために、複数の階層要素の領域に対応する領域に、前記複数のバイノーラル室内インパルス応答フィルタのうちの少なくとも1つの方向依存性セグメントの各々を変換すること、ここにおいて、前記複数の階層要素は前記音場を記述する、と、
前記音場をレンダリングするために、前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との高速畳み込みを実施することと、
を行わせる命令をその上に記憶した、非一時的コンピュータ可読記憶媒体。

Claims (40)

  1. バイノーラル音声レンダリングの方法であって、
    複数のバイノーラル室内インパルス応答フィルタの各々に関する複数のセグメントを決定すること、ここにおいて、前記複数のバイノーラル室内インパルス応答フィルタの各々は、残余室内応答セグメントと、フィルタ応答が音場内の位置に依存する少なくとも1つの方向依存性セグメントとを備える、と、
    複数の変換されたバイノーラル室内インパルス応答フィルタを生成するために、複数の階層要素の領域に対応する領域に、前記複数のバイノーラル室内インパルス応答フィルタのうちの少なくとも1つの方向依存性セグメントの各々を変換すること、ここにおいて、前記複数の階層要素は前記音場を記述する、と、
    前記音場をレンダリングするために、前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との高速畳み込みを実施することと、
    を備える、方法。
  2. 前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施することが、前記バイノーラル室内インパルス応答フィルタの前記残余室内応答セグメントと前記複数の階層要素との結合の高速畳み込みを実施することを備える、請求項1に記載の方法。
  3. 前記複数の変換されたバイノーラル室内インパルス応答フィルタが、左の変換されたバイノーラル室内インパルス応答フィルタと右の変換されたバイノーラル室内インパルス応答フィルタとを備え、
    前記複数の変換されたバイノーラル室内インパルス応答フィルタの各々が、音源から直接放射する圧力波に対するインパルス応答を表す頭部伝達関数セグメントを備え、前記方法が、
    前記複数のバイノーラル室内インパルス応答フィルタのうちの1つに関する結合された頭部伝達関数セグメントを作成するために、前記左の変換されたバイノーラル室内インパルス応答フィルタの頭部伝達関数セグメントと前記右の変換されたバイノーラル室内インパルス応答フィルタの頭部伝達関数セグメントとを結合することをさらに備え、
    前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施することが、前記音場をレンダリングするために、前記結合された頭部伝達関数セグメントと前記複数の階層要素のうちの階層要素との高速畳み込みを実施することを備える、請求項1に記載の方法。
  4. 前記左の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントと前記右の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントとを結合することが、前記複数のバイノーラル室内インパルス応答フィルタのうちの前記1つに関する頭部伝達関数セグメントを近似する最小位相フィルタを生成するために、前記左の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントと前記右のバイノーラル室内インパルス応答の変換されたフィルタの前記頭部伝達関数セグメントとのうちの少なくとも一方に、最小位相再構成を適用することを備え、
    前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施することが、前記音場をレンダリングするために、前記最小位相フィルタと前記複数の階層要素のうちの前記階層要素との高速畳み込みを実施することを備える、請求項3に記載の方法。
  5. 前記左の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントと前記右の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントとを結合することが、前記複数の変換されたバイノーラル室内インパルス応答フィルタのうちの前記1つに関する頭部伝達関数セグメントを近似する最小位相フィルタを生成するため、および残余位相フィルタを作成するために、前記左の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントと前記右の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントとのうちの少なくとも一方に、最小位相再構成を適用することを備え、前記方法が、
    前記残余位相フィルタから両耳間時間差を推定することをさらに備え、
    前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施することが、前記音場を両耳にレンダリングするために、畳み込みを作成して前記両耳間時間差を適用するために、前記最小位相フィルタと前記複数の階層要素のうちの前記階層要素との前記高速畳み込みを実施することを備える、請求項3に記載の方法。
  6. 前記複数の変換されたバイノーラル室内インパルス応答フィルタが、左の変換されたバイノーラル室内インパルス応答フィルタと右の変換されたバイノーラル室内インパルス応答フィルタとを備え、
    前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施することが、前記左のバイノーラル室内インパルス応答フィルタまたは前記右のバイノーラル室内インパルス応答フィルタのいずれか一方のみと前記複数の階層要素との高速畳み込みを実施することを備える、請求項1に記載の方法。
  7. 前記複数のバイノーラル室内インパルス応答フィルタの各々が、インパルスに起因する応答サンプルを含まない初期静止位相を備え、前記方法が、
    前記複数のバイノーラル室内インパルス応答フィルタのうちの任意の応答サンプルの最早の開始を決定することをさらに備え、前記最早の開始が前記複数のバイノーラル室内インパルス応答フィルタに関する共通の初期静止位相を決定し、
    前記複数のバイノーラル室内インパルス応答フィルタの各々に関する前記複数のセグメントを決定することが、前記共通の初期静止位相の一部である前記複数のバイノーラル室内インパルス応答フィルタのサンプルを含まないように、前記複数のバイノーラル室内インパルス応答フィルタの前記少なくとも1つの方向依存性セグメントを決定することを備える、請求項1に記載の方法。
  8. 前記複数のバイノーラル室内インパルス応答フィルタの各々に関する前記複数のセグメントが、残余室内応答セグメントを備え、前記方法が、
    共通の残余室内応答セグメントを作成するために、前記複数のバイノーラル室内インパルス応答フィルタの各々に関する前記残余室内応答セグメントを結合することと、
    前記複数のバイノーラル室内インパルス応答フィルタの各々に関する前記複数のセグメントの前記残余室内応答セグメントと前記複数の階層要素との高速畳み込みを実施することなく音場に対する室内応答をレンダリングするために、前記共通の残余室内応答セグメントと前記複数の階層要素との高速畳み込みを実施することと、
    をさらに備える、請求項1に記載の方法。
  9. 前記共通の残余室内応答セグメントと前記複数の階層要素との前記高速畳み込みを実施することが、前記音場に対する前記残余室内応答をレンダリングするために、前記複数の階層要素のうちの最高次数の要素を有する前記共通の残余室内応答セグメントだけの高速畳み込みを実施することを備える、請求項8に記載の方法。
  10. 前記音場をレンダリングするための前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みが信号を作成し、前記方法が、
    音場に対する遅延残余室内応答を作成するために、前記音場に対する前記室内応答をゼロパディングすることと、
    前記音場をレンダリングするために、前記音場に対する前記遅延室内応答と前記信号とを結合することと、
    をさらに備える、請求項8に記載の方法。
  11. フィルタ行列を生成するために、前記複数の変換されたバイノーラル室内インパルス応答フィルタを合計することをさらに備え、
    前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施することが、前記音場をレンダリングするために、前記フィルタ行列と前記複数の階層要素との高速畳み込みを実施することを備える、請求項1に記載の方法。
  12. 前記複数の階層要素が、球面調和係数を備える、請求項1に記載の方法。
  13. 前記複数の階層要素が、高次アンビソニックスを備える、請求項1に記載の方法。
  14. 1つまたは複数のプロセッサを備えるデバイスであって、
    複数のバイノーラル室内インパルス応答フィルタの各々に関する複数のセグメントを決定すること、ここにおいて、前記複数のバイノーラル室内インパルス応答フィルタの各々は、残余室内応答セグメントと、フィルタ応答が音場内の位置に依存する少なくとも1つの方向依存性セグメントとを備える、と、
    複数の変換されたバイノーラル室内インパルス応答フィルタを生成するために、複数の階層要素の領域に対応する領域に、前記複数のバイノーラル室内インパルス応答フィルタのうちの少なくとも1つの方向依存性セグメントの各々を変換すること、ここにおいて、前記複数の階層要素は前記音場を記述する、と、
    前記音場をレンダリングするために、前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との高速畳み込みを実施することと、
    を行うように構成される、デバイス。
  15. 前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施するために、前記1つまたは複数のプロセッサが、前記バイノーラル室内インパルス応答フィルタの前記残余室内応答セグメントと前記複数の階層要素との結合の高速畳み込みを実施するようにさらに構成される、請求項14に記載のデバイス。
  16. 前記複数の変換されたバイノーラル室内インパルス応答フィルタが、左の変換されたバイノーラル室内インパルス応答フィルタと右の変換されたバイノーラル室内インパルス応答フィルタとを備え、
    前記複数の変換されたバイノーラル室内インパルス応答フィルタの各々が、音源から直接放射する圧力波に対するインパルス応答を表す頭部伝達関数セグメントを備え、
    前記1つまたは複数のプロセッサが、前記複数のバイノーラル室内インパルス応答フィルタのうちの1つに関する結合された頭部伝達関数セグメントを作成するために、前記左の変換されたバイノーラル室内インパルス応答フィルタの頭部伝達関数セグメントと前記右の変換されたバイノーラル室内インパルス応答フィルタの頭部伝達関数セグメントとを結合するようにさらに構成され、
    前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施するために、前記1つまたは複数のプロセッサが、前記音場をレンダリングするために、前記結合された頭部伝達関数セグメントと前記複数の階層要素のうちの階層要素との高速畳み込みを実施するようにさらに構成される、請求項14に記載のデバイス。
  17. 前記左の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントと前記右の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントとを結合するために、前記1つまたは複数のプロセッサが、前記複数のバイノーラル室内インパルス応答フィルタのうちの前記1つに関する頭部伝達関数セグメントを近似する最小位相フィルタを生成するために、前記左の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントと前記右のバイノーラル室内インパルス応答の変換されたフィルタの前記頭部伝達関数セグメントとのうちの少なくとも一方に、最小位相再構成を適用するようにさらに構成され、
    前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施するために、前記1つまたは複数のプロセッサが、前記音場をレンダリングするために、前記最小位相フィルタと前記複数の階層要素のうちの前記階層要素との高速畳み込みを実施するようにさらに構成される、請求項16に記載のデバイス。
  18. 前記左の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントと前記右の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントとを結合するために、前記1つまたは複数のプロセッサが、前記複数の変換されたバイノーラル室内インパルス応答フィルタのうちの前記1つに関する頭部伝達関数セグメントを近似する最小位相フィルタを生成するため、および残余位相フィルタを作成するために、前記左の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントと前記右の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントとのうちの少なくとも一方に、最小位相再構成を適用するようにさらに構成され、
    前記1つまたは複数のプロセッサが、前記残余位相フィルタから両耳間時間差を推定するようにさらに構成され、
    前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施するために、前記1つまたは複数のプロセッサが、前記音場を両耳にレンダリングするために、畳み込みを作成して前記両耳間時間差を適用するために、前記最小位相フィルタと前記複数の階層要素のうちの前記階層要素との前記高速畳み込みを実施するようにさらに構成される、請求項16に記載のデバイス。
  19. 前記複数の変換されたバイノーラル室内インパルス応答フィルタが、左の変換されたバイノーラル室内インパルス応答フィルタと右の変換されたバイノーラル室内インパルス応答フィルタとを備え、
    前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施するために、前記1つまたは複数のプロセッサが、前記左のバイノーラル室内インパルス応答フィルタまたは前記右のバイノーラル室内インパルス応答フィルタのいずれかのみと前記複数の階層要素との高速畳み込みを実施するようにさらに構成される、請求項14に記載のデバイス。
  20. 前記複数のバイノーラル室内インパルス応答フィルタの各々が、インパルスに起因する応答サンプルを含まない初期静止位相を備え、
    前記1つまたは複数のプロセッサが、前記複数のバイノーラル室内インパルス応答フィルタのうちの任意の応答サンプルの最早の開始を決定するようにさらに構成され、前記最早の開始が前記複数のバイノーラル室内インパルス応答フィルタに関する共通の初期静止位相を決定し、
    前記複数のバイノーラル室内インパルス応答フィルタの各々に関する前記複数のセグメントを決定するために、前記1つまたは複数のプロセッサが、前記共通の初期静止位相の一部である前記複数のバイノーラル室内インパルス応答フィルタのサンプルを含まないように、前記複数のバイノーラル室内インパルス応答フィルタのうちの前記少なくとも1つの方向依存性セグメントを決定するようにさらに構成される、請求項14に記載のデバイス。
  21. 前記複数のバイノーラル室内インパルス応答フィルタの各々に関する前記複数のセグメントが、残余室内応答セグメントを備え、
    前記1つまたは複数のプロセッサが、共通の残余室内応答セグメントを作成するために、前記複数のバイノーラル室内インパルス応答フィルタの各々に関する前記残余室内応答セグメントを結合するようにさらに構成され、
    前記1つまたは複数のプロセッサが、前記複数のバイノーラル室内インパルス応答フィルタの各々に関する前記複数のセグメントの前記残余室内応答セグメントと前記複数の階層要素との高速畳み込みを実施することなく音場に対する室内応答をレンダリングするために、前記共通の残余室内応答セグメントと前記複数の階層要素との高速畳み込みを実施するようにさらに構成される、請求項14に記載のデバイス。
  22. 前記共通の残余室内応答セグメントと前記複数の階層要素との前記高速畳み込みを実施するために、前記1つまたは複数のプロセッサが、前記音場に対する前記残余室内応答をレンダリングするために、前記複数の階層要素のうちの最高次数の要素を有する前記共通の残余室内応答セグメントだけの高速畳み込みを実施するようにさらに構成される、請求項21に記載のデバイス。
  23. 前記音場をレンダリングするための、前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みが信号を作成し、
    前記1つまたは複数のプロセッサが、
    音場に対する遅延残余室内応答を作成するために、前記音場に対する前記室内応答をゼロパディングすることと、
    前記音場をレンダリングするために、前記音場に対する前記遅延室内応答と前記信号とを結合することと、
    を行うようにさらに構成される、請求項21に記載のデバイス。
  24. 前記1つまたは複数のプロセッサが、フィルタ行列を生成するために、前記複数の変換されたバイノーラル室内インパルス応答フィルタを合計するようにさらに構成され、
    前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施するために、前記1つまたは複数のプロセッサが、前記音場をレンダリングするために、前記フィルタ行列と前記複数の階層要素との高速畳み込みを実施するようにさらに構成される、請求項14に記載のデバイス。
  25. 前記複数の階層要素が、球面調和係数を備える、請求項14に記載のデバイス。
  26. 前記複数の階層要素が、高次アンビソニックスを備える、請求項14に記載のデバイス。
  27. 複数のバイノーラル室内インパルス応答フィルタの各々に関する複数のセグメントを決定するための手段、ここにおいて、前記複数のバイノーラル室内インパルス応答フィルタの各々は、残余室内応答セグメントと、フィルタ応答が音場内の位置に依存する少なくとも1つの方向依存性セグメントとを備える、と、
    複数の変換されたバイノーラル室内インパルス応答フィルタを生成するために、複数の階層要素の領域に対応する領域に、前記複数のバイノーラル室内インパルス応答フィルタのうちの少なくとも1つの方向依存性セグメントの各々を変換するための手段、ここにおいて、前記複数の階層要素は前記音場を記述する、と、
    前記音場をレンダリングするために、前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との高速畳み込みを実施するための手段と、
    を備える、装置。
  28. 前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施するための前記手段が、前記バイノーラル室内インパルス応答フィルタの前記残余室内応答セグメントと前記複数の階層要素との結合の高速畳み込みを実施するための手段を備える、請求項27に記載の装置。
  29. 前記複数の変換されたバイノーラル室内インパルス応答フィルタが、左の変換されたバイノーラル室内インパルス応答フィルタと右の変換されたバイノーラル室内インパルス応答フィルタとを備え、
    前記複数の変換されたバイノーラル室内インパルス応答フィルタの各々が、音源から直接放射する圧力波に対するインパルス応答を表す頭部伝達関数セグメントを備え、前記装置が、
    前記複数のバイノーラル室内インパルス応答フィルタのうちの1つに関する結合された頭部伝達関数セグメントを作成するために、前記左の変換されたバイノーラル室内インパルス応答フィルタの頭部伝達関数セグメントと前記右の変換されたバイノーラル室内インパルス応答フィルタの頭部伝達関数セグメントとを結合するための手段をさらに備え、
    前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施するための前記手段が、前記音場をレンダリングするために、前記結合された頭部伝達関数セグメントと前記複数の階層要素のうちの階層要素との高速畳み込みを実施するための手段を備える、請求項27に記載の装置。
  30. 前記左の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントと前記右の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントとを結合するための前記手段が、前記複数のバイノーラル室内インパルス応答フィルタのうちの前記1つに関する頭部伝達関数セグメントを近似する最小位相フィルタを生成するために、前記左の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントと前記右のバイノーラル室内インパルス応答の変換されたフィルタの前記頭部伝達関数セグメントとのうちの少なくとも一方に、最小位相再構成を適用するための手段を備え、
    前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施するための前記手段が、前記音場をレンダリングするために、前記最小位相フィルタと前記複数の階層要素のうちの前記階層要素との高速畳み込みを実施するための手段を備える、請求項29に記載の装置。
  31. 前記左の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントと前記右の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントとを結合するための前記手段が、前記複数の変換されたバイノーラル室内インパルス応答フィルタのうちの前記1つに関する頭部伝達関数セグメントを近似する最小位相フィルタを生成するため、および残余位相フィルタを作成するために、前記左の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントと前記右の変換されたバイノーラル室内インパルス応答フィルタの前記頭部伝達関数セグメントとのうちの少なくとも一方に、最小位相再構成を適用するための手段を備え、前記装置が、
    前記残余位相フィルタから両耳間時間差を推定するための手段をさらに備え、
    前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施するための前記手段が、前記音場を両耳にレンダリングするために、畳み込みを作成して前記両耳間時間差を適用するために、前記最小位相フィルタと前記複数の階層要素のうちの前記階層要素との前記高速畳み込みを実施するための手段を備える、請求項29に記載の装置。
  32. 前記複数の変換されたバイノーラル室内インパルス応答フィルタが、左の変換されたバイノーラル室内インパルス応答フィルタと右の変換されたバイノーラル室内インパルス応答フィルタとを備え、
    前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施するための前記手段が、前記左のバイノーラル室内インパルス応答フィルタまたは前記右のバイノーラル室内インパルス応答フィルタのいずれかのみと前記複数の階層要素との高速畳み込みを実施するための手段を備える、請求項27に記載の装置。
  33. 前記複数のバイノーラル室内インパルス応答フィルタの各々が、インパルスに起因する応答サンプルを含まない初期静止位相を備え、前記装置が、
    前記複数のバイノーラル室内インパルス応答フィルタのうちの任意の応答サンプルの最早開始を決定するための手段をさらに備え、前記最早開始が前記複数のバイノーラル室内インパルス応答フィルタに関する共通の初期静止位相を決定し、
    前記複数のバイノーラル室内インパルス応答フィルタの各々に関する前記複数のセグメントを決定するための前記手段が、前記共通の初期静止位相の一部である前記複数のバイノーラル室内インパルス応答フィルタのサンプルを含まないように、前記複数のバイノーラル室内インパルス応答フィルタのうちの前記少なくとも1つの方向依存性セグメントを決定するための手段を備える、請求項27に記載の装置。
  34. 前記複数のバイノーラル室内インパルス応答フィルタの各々に関する前記複数のセグメントが、残余室内応答セグメントを備え、前記装置が、
    共通の残余室内応答セグメントを作成するために、前記複数のバイノーラル室内インパルス応答フィルタの各々に関する前記残余室内応答セグメントを結合するための手段と、
    前記複数のバイノーラル室内インパルス応答フィルタの各々に関する前記複数のセグメントの前記残余室内応答セグメントと前記複数の階層要素との高速畳み込みを実施することなく音場に対する室内応答をレンダリングするために、前記共通の残余室内応答セグメントと前記複数の階層要素との高速畳み込みを実施するための手段と、
    をさらに備える前記装置をさらに備える、請求項27に記載の装置。
  35. 前記共通の残余室内応答セグメントと前記複数の階層要素との前記高速畳み込みを実施するための前記手段が、前記音場に対する前記残余室内応答をレンダリングするために、前記複数の階層要素のうちの最高次数の要素を有する前記共通の残余室内応答セグメントだけの高速畳み込みを実施するための手段を備える、請求項34に記載の装置。
  36. 前記音場をレンダリングするための前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みが信号を作成し、前記装置が、
    音場に対する遅延残余室内応答を作成するために、前記音場に対する前記室内応答をゼロパディングするための手段と、
    前記音場をレンダリングするために、前記音場に対する前記遅延室内応答と前記信号とを結合するための手段と、
    をさらに備える、請求項34に記載の装置。
  37. フィルタ行列を生成するために、前記複数の変換されたバイノーラル室内インパルス応答フィルタを合計するための手段をさらに備え、
    前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との前記高速畳み込みを実施するための前記手段が、前記音場をレンダリングするために、前記フィルタ行列と前記複数の階層要素との高速畳み込みを実施するための手段を備える、請求項27に記載の装置。
  38. 前記複数の階層要素が、球面調和係数を備える、請求項27に記載の装置。
  39. 前記複数の階層要素が、高次アンビソニックスを備える、請求項27に記載の装置。
  40. 実行されると、1つまたは複数のプロセッサに、
    複数のバイノーラル室内インパルス応答フィルタの各々に関する複数のセグメントを決定すること、ここにおいて、前記複数のバイノーラル室内インパルス応答フィルタの各々は、残余室内応答セグメントと、フィルタ応答が音場内の位置に依存する少なくとも1つの方向依存性セグメントとを備える、と、
    複数の変換されたバイノーラル室内インパルス応答フィルタを生成するために、複数の階層要素の領域に対応する領域に、前記複数のバイノーラル室内インパルス応答フィルタのうちの少なくとも1つの方向依存性セグメントの各々を変換すること、ここにおいて、前記複数の階層要素は前記音場を記述する、と、
    前記音場をレンダリングするために、前記複数の変換されたバイノーラル室内インパルス応答フィルタと前記複数の階層要素との高速畳み込みを実施することと、
    を行わせる命令をその上に記憶した、非一時的コンピュータ可読記憶媒体。
JP2016516795A 2013-05-29 2014-05-28 バイノーラル室内インパルス応答を用いたフィルタリング Expired - Fee Related JP6227764B2 (ja)

Applications Claiming Priority (11)

Application Number Priority Date Filing Date Title
US201361828620P 2013-05-29 2013-05-29
US61/828,620 2013-05-29
US201361847543P 2013-07-17 2013-07-17
US61/847,543 2013-07-17
US201361886593P 2013-10-03 2013-10-03
US201361886620P 2013-10-03 2013-10-03
US61/886,620 2013-10-03
US61/886,593 2013-10-03
US14/288,293 US9674632B2 (en) 2013-05-29 2014-05-27 Filtering with binaural room impulse responses
US14/288,293 2014-05-27
PCT/US2014/039848 WO2014193993A1 (en) 2013-05-29 2014-05-28 Filtering with binaural room impulse responses

Publications (3)

Publication Number Publication Date
JP2016523464A true JP2016523464A (ja) 2016-08-08
JP2016523464A5 JP2016523464A5 (ja) 2017-08-31
JP6227764B2 JP6227764B2 (ja) 2017-11-08

Family

ID=51985133

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2016516795A Expired - Fee Related JP6227764B2 (ja) 2013-05-29 2014-05-28 バイノーラル室内インパルス応答を用いたフィルタリング
JP2016516799A Expired - Fee Related JP6100441B2 (ja) 2013-05-29 2014-05-28 コンテンツ解析および重み付けを用いたバイノーラル室内インパルス応答によるフィルタリング
JP2016516798A Expired - Fee Related JP6067934B2 (ja) 2013-05-29 2014-05-28 球面調和係数のバイノーラルレンダリング

Family Applications After (2)

Application Number Title Priority Date Filing Date
JP2016516799A Expired - Fee Related JP6100441B2 (ja) 2013-05-29 2014-05-28 コンテンツ解析および重み付けを用いたバイノーラル室内インパルス応答によるフィルタリング
JP2016516798A Expired - Fee Related JP6067934B2 (ja) 2013-05-29 2014-05-28 球面調和係数のバイノーラルレンダリング

Country Status (7)

Country Link
US (3) US9420393B2 (ja)
EP (3) EP3005733B1 (ja)
JP (3) JP6227764B2 (ja)
KR (3) KR101719094B1 (ja)
CN (3) CN105340298B (ja)
TW (1) TWI615042B (ja)
WO (3) WO2014194005A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020092409A (ja) * 2018-10-25 2020-06-11 クリエイティブ テクノロジー リミテッドCreative Technology Ltd ヘッドフォンを介した空間音響レンダリングのための室内特性を修正するシステムおよび方法

Families Citing this family (128)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9202509B2 (en) 2006-09-12 2015-12-01 Sonos, Inc. Controlling and grouping in a multi-zone media system
US8788080B1 (en) 2006-09-12 2014-07-22 Sonos, Inc. Multi-channel pairing in a media system
US8483853B1 (en) 2006-09-12 2013-07-09 Sonos, Inc. Controlling and manipulating groupings in a multi-zone media system
US8923997B2 (en) 2010-10-13 2014-12-30 Sonos, Inc Method and apparatus for adjusting a speaker system
US11429343B2 (en) 2011-01-25 2022-08-30 Sonos, Inc. Stereo playback configuration and control
US11265652B2 (en) 2011-01-25 2022-03-01 Sonos, Inc. Playback device pairing
US8938312B2 (en) 2011-04-18 2015-01-20 Sonos, Inc. Smart line-in processing
US9042556B2 (en) 2011-07-19 2015-05-26 Sonos, Inc Shaping sound responsive to speaker orientation
US8811630B2 (en) 2011-12-21 2014-08-19 Sonos, Inc. Systems, methods, and apparatus to filter audio
US9084058B2 (en) 2011-12-29 2015-07-14 Sonos, Inc. Sound field calibration using listener localization
US9131305B2 (en) * 2012-01-17 2015-09-08 LI Creative Technologies, Inc. Configurable three-dimensional sound system
US9729115B2 (en) 2012-04-27 2017-08-08 Sonos, Inc. Intelligently increasing the sound level of player
US9524098B2 (en) 2012-05-08 2016-12-20 Sonos, Inc. Methods and systems for subwoofer calibration
USD721352S1 (en) 2012-06-19 2015-01-20 Sonos, Inc. Playback device
US9690271B2 (en) 2012-06-28 2017-06-27 Sonos, Inc. Speaker calibration
US9668049B2 (en) 2012-06-28 2017-05-30 Sonos, Inc. Playback device calibration user interfaces
US9706323B2 (en) 2014-09-09 2017-07-11 Sonos, Inc. Playback device calibration
US9106192B2 (en) 2012-06-28 2015-08-11 Sonos, Inc. System and method for device playback calibration
US9219460B2 (en) 2014-03-17 2015-12-22 Sonos, Inc. Audio settings based on environment
US9690539B2 (en) 2012-06-28 2017-06-27 Sonos, Inc. Speaker calibration user interface
US8930005B2 (en) 2012-08-07 2015-01-06 Sonos, Inc. Acoustic signatures in a playback system
US8965033B2 (en) 2012-08-31 2015-02-24 Sonos, Inc. Acoustic optimization
US9008330B2 (en) 2012-09-28 2015-04-14 Sonos, Inc. Crossover frequency adjustments for audio speakers
USD721061S1 (en) 2013-02-25 2015-01-13 Sonos, Inc. Playback device
WO2014171791A1 (ko) 2013-04-19 2014-10-23 한국전자통신연구원 다채널 오디오 신호 처리 장치 및 방법
KR102150955B1 (ko) 2013-04-19 2020-09-02 한국전자통신연구원 다채널 오디오 신호 처리 장치 및 방법
US9384741B2 (en) * 2013-05-29 2016-07-05 Qualcomm Incorporated Binauralization of rotated higher order ambisonics
US9420393B2 (en) 2013-05-29 2016-08-16 Qualcomm Incorporated Binaural rendering of spherical harmonic coefficients
EP2840811A1 (en) 2013-07-22 2015-02-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for processing an audio signal; signal processing unit, binaural renderer, audio encoder and audio decoder
EP2830043A3 (en) 2013-07-22 2015-02-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for Processing an Audio Signal in accordance with a Room Impulse Response, Signal Processing Unit, Audio Encoder, Audio Decoder, and Binaural Renderer
US9319819B2 (en) 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
EP3048814B1 (en) 2013-09-17 2019-10-23 Wilus Institute of Standards and Technology Inc. Method and device for audio signal processing
EP3062535B1 (en) 2013-10-22 2019-07-03 Industry-Academic Cooperation Foundation, Yonsei University Method and apparatus for processing audio signal
DE102013223201B3 (de) * 2013-11-14 2015-05-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zum Komprimieren und Dekomprimieren von Schallfelddaten eines Gebietes
KR101627657B1 (ko) 2013-12-23 2016-06-07 주식회사 윌러스표준기술연구소 오디오 신호의 필터 생성 방법 및 이를 위한 파라메터화 장치
WO2015103024A1 (en) 2014-01-03 2015-07-09 Dolby Laboratories Licensing Corporation Methods and systems for designing and applying numerically optimized binaural room impulse responses
US9226073B2 (en) 2014-02-06 2015-12-29 Sonos, Inc. Audio output balancing during synchronized playback
US9226087B2 (en) 2014-02-06 2015-12-29 Sonos, Inc. Audio output balancing during synchronized playback
US9264839B2 (en) 2014-03-17 2016-02-16 Sonos, Inc. Playback device configuration based on proximity detection
KR101782917B1 (ko) 2014-03-19 2017-09-28 주식회사 윌러스표준기술연구소 오디오 신호 처리 방법 및 장치
KR101882423B1 (ko) * 2014-03-21 2018-08-24 후아웨이 테크놀러지 컴퍼니 리미티드 적어도 제1 쌍의 룸 임펄스 응답에 기초하여, 믹싱 시간 전체를 추정하는 장치 및 방법, 대응하는 컴퓨터 프로그램
EP3399776B1 (en) 2014-04-02 2024-01-31 Wilus Institute of Standards and Technology Inc. Audio signal processing method and device
US9367283B2 (en) 2014-07-22 2016-06-14 Sonos, Inc. Audio settings
USD883956S1 (en) 2014-08-13 2020-05-12 Sonos, Inc. Playback device
KR20160020377A (ko) 2014-08-13 2016-02-23 삼성전자주식회사 음향 신호를 생성하고 재생하는 방법 및 장치
US9891881B2 (en) 2014-09-09 2018-02-13 Sonos, Inc. Audio processing algorithm database
US10127006B2 (en) 2014-09-09 2018-11-13 Sonos, Inc. Facilitating calibration of an audio playback device
US9910634B2 (en) 2014-09-09 2018-03-06 Sonos, Inc. Microphone calibration
US9952825B2 (en) 2014-09-09 2018-04-24 Sonos, Inc. Audio processing algorithms
US9774974B2 (en) * 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
US9560464B2 (en) * 2014-11-25 2017-01-31 The Trustees Of Princeton University System and method for producing head-externalized 3D audio through headphones
US9973851B2 (en) 2014-12-01 2018-05-15 Sonos, Inc. Multi-channel playback of audio content
EP4002888A1 (en) 2015-02-12 2022-05-25 Dolby Laboratories Licensing Corporation Headphone virtualization
US10664224B2 (en) 2015-04-24 2020-05-26 Sonos, Inc. Speaker calibration user interface
WO2016172593A1 (en) 2015-04-24 2016-10-27 Sonos, Inc. Playback device calibration user interfaces
US20170085972A1 (en) 2015-09-17 2017-03-23 Sonos, Inc. Media Player and Media Player Design
USD920278S1 (en) 2017-03-13 2021-05-25 Sonos, Inc. Media playback device with lights
USD906278S1 (en) 2015-04-25 2020-12-29 Sonos, Inc. Media player device
USD886765S1 (en) 2017-03-13 2020-06-09 Sonos, Inc. Media playback device
USD768602S1 (en) 2015-04-25 2016-10-11 Sonos, Inc. Playback device
US10248376B2 (en) 2015-06-11 2019-04-02 Sonos, Inc. Multiple groupings in a playback system
US9729118B2 (en) 2015-07-24 2017-08-08 Sonos, Inc. Loudness matching
US9538305B2 (en) 2015-07-28 2017-01-03 Sonos, Inc. Calibration error conditions
US10932078B2 (en) 2015-07-29 2021-02-23 Dolby Laboratories Licensing Corporation System and method for spatial processing of soundfield signals
US9712912B2 (en) 2015-08-21 2017-07-18 Sonos, Inc. Manipulation of playback device response using an acoustic filter
US9736610B2 (en) 2015-08-21 2017-08-15 Sonos, Inc. Manipulation of playback device response using signal processing
EA034371B1 (ru) * 2015-08-25 2020-01-31 Долби Лэборетериз Лайсенсинг Корпорейшн Аудиодекодер и способ декодирования
CA3219512A1 (en) 2015-08-25 2017-03-02 Dolby International Ab Audio encoding and decoding using presentation transform parameters
US10262677B2 (en) * 2015-09-02 2019-04-16 The University Of Rochester Systems and methods for removing reverberation from audio signals
WO2017049169A1 (en) 2015-09-17 2017-03-23 Sonos, Inc. Facilitating calibration of an audio playback device
US9693165B2 (en) 2015-09-17 2017-06-27 Sonos, Inc. Validation of audio calibration using multi-dimensional motion check
EP3402221B1 (en) * 2016-01-08 2020-04-08 Sony Corporation Audio processing device and method, and program
US9743207B1 (en) 2016-01-18 2017-08-22 Sonos, Inc. Calibration using multiple recording devices
US11106423B2 (en) 2016-01-25 2021-08-31 Sonos, Inc. Evaluating calibration of a playback device
US10003899B2 (en) 2016-01-25 2018-06-19 Sonos, Inc. Calibration with particular locations
US9886234B2 (en) 2016-01-28 2018-02-06 Sonos, Inc. Systems and methods of distributing audio to one or more playback devices
US10142755B2 (en) * 2016-02-18 2018-11-27 Google Llc Signal processing methods and systems for rendering audio on virtual loudspeaker arrays
US9591427B1 (en) * 2016-02-20 2017-03-07 Philip Scott Lyren Capturing audio impulse responses of a person with a smartphone
US9881619B2 (en) 2016-03-25 2018-01-30 Qualcomm Incorporated Audio processing for an acoustical environment
WO2017165968A1 (en) * 2016-03-29 2017-10-05 Rising Sun Productions Limited A system and method for creating three-dimensional binaural audio from stereo, mono and multichannel sound sources
US9864574B2 (en) 2016-04-01 2018-01-09 Sonos, Inc. Playback device calibration based on representation spectral characteristics
US9860662B2 (en) 2016-04-01 2018-01-02 Sonos, Inc. Updating playback device configuration information based on calibration data
US9763018B1 (en) 2016-04-12 2017-09-12 Sonos, Inc. Calibration of audio playback devices
WO2017182707A1 (en) * 2016-04-20 2017-10-26 Genelec Oy An active monitoring headphone and a method for regularizing the inversion of the same
CN105792090B (zh) * 2016-04-27 2018-06-26 华为技术有限公司 一种增加混响的方法与装置
US10200806B2 (en) * 2016-06-17 2019-02-05 Dts, Inc. Near-field binaural rendering
US9860670B1 (en) 2016-07-15 2018-01-02 Sonos, Inc. Spectral correction using spatial calibration
US9794710B1 (en) 2016-07-15 2017-10-17 Sonos, Inc. Spatial audio correction
US10372406B2 (en) 2016-07-22 2019-08-06 Sonos, Inc. Calibration interface
US10459684B2 (en) 2016-08-05 2019-10-29 Sonos, Inc. Calibration of a playback device based on an estimated frequency response
CN106412793B (zh) * 2016-09-05 2018-06-12 中国科学院自动化研究所 基于球谐函数的头相关传输函数的稀疏建模方法和系统
EP3293987B1 (en) 2016-09-13 2020-10-21 Nokia Technologies Oy Audio processing
USD827671S1 (en) 2016-09-30 2018-09-04 Sonos, Inc. Media playback device
US10412473B2 (en) 2016-09-30 2019-09-10 Sonos, Inc. Speaker grill with graduated hole sizing over a transition area for a media device
USD851057S1 (en) 2016-09-30 2019-06-11 Sonos, Inc. Speaker grill with graduated hole sizing over a transition area for a media device
US10492018B1 (en) 2016-10-11 2019-11-26 Google Llc Symmetric binaural rendering for high-order ambisonics
US10712997B2 (en) 2016-10-17 2020-07-14 Sonos, Inc. Room association based on name
EP3312833A1 (en) * 2016-10-19 2018-04-25 Holosbase GmbH Decoding and encoding apparatus and corresponding methods
KR20190091445A (ko) * 2016-10-19 2019-08-06 오더블 리얼리티 아이엔씨. 오디오 이미지를 생성하는 시스템 및 방법
US9992602B1 (en) 2017-01-12 2018-06-05 Google Llc Decoupled binaural rendering
US10009704B1 (en) * 2017-01-30 2018-06-26 Google Llc Symmetric spherical harmonic HRTF rendering
US10158963B2 (en) * 2017-01-30 2018-12-18 Google Llc Ambisonic audio with non-head tracked stereo based on head position and time
JP7038725B2 (ja) * 2017-02-10 2022-03-18 ガウディオ・ラボ・インコーポレイテッド オーディオ信号処理方法及び装置
DE102017102988B4 (de) 2017-02-15 2018-12-20 Sennheiser Electronic Gmbh & Co. Kg Verfahren und Vorrichtung zur Verarbeitung eines digitalen Audiosignals für binaurale Wiedergabe
WO2019054559A1 (ko) * 2017-09-15 2019-03-21 엘지전자 주식회사 Brir/rir 파라미터화(parameterization)를 적용한 오디오 인코딩 방법 및 파라미터화된 brir/rir 정보를 이용한 오디오 재생 방법 및 장치
US10388268B2 (en) * 2017-12-08 2019-08-20 Nokia Technologies Oy Apparatus and method for processing volumetric audio
US10523171B2 (en) 2018-02-06 2019-12-31 Sony Interactive Entertainment Inc. Method for dynamic sound equalization
US10652686B2 (en) 2018-02-06 2020-05-12 Sony Interactive Entertainment Inc. Method of improving localization of surround sound
EP4093057A1 (en) 2018-04-27 2022-11-23 Dolby Laboratories Licensing Corp. Blind detection of binauralized stereo content
US11929091B2 (en) 2018-04-27 2024-03-12 Dolby Laboratories Licensing Corporation Blind detection of binauralized stereo content
US10872602B2 (en) 2018-05-24 2020-12-22 Dolby Laboratories Licensing Corporation Training of acoustic models for far-field vocalization processing systems
US10887717B2 (en) * 2018-07-12 2021-01-05 Sony Interactive Entertainment Inc. Method for acoustically rendering the size of sound a source
US10299061B1 (en) 2018-08-28 2019-05-21 Sonos, Inc. Playback device calibration
US11206484B2 (en) 2018-08-28 2021-12-21 Sonos, Inc. Passive speaker authentication
WO2020044244A1 (en) 2018-08-29 2020-03-05 Audible Reality Inc. System for and method of controlling a three-dimensional audio engine
US11272310B2 (en) * 2018-08-29 2022-03-08 Dolby Laboratories Licensing Corporation Scalable binaural audio stream generation
US11304021B2 (en) 2018-11-29 2022-04-12 Sony Interactive Entertainment Inc. Deferred audio rendering
CN109801643B (zh) * 2019-01-30 2020-12-04 龙马智芯(珠海横琴)科技有限公司 混响抑制的处理方法和装置
US11076257B1 (en) * 2019-06-14 2021-07-27 EmbodyVR, Inc. Converting ambisonic audio to binaural audio
US11341952B2 (en) * 2019-08-06 2022-05-24 Insoundz, Ltd. System and method for generating audio featuring spatial representations of sound sources
US10734965B1 (en) 2019-08-12 2020-08-04 Sonos, Inc. Audio calibration of a portable playback device
CN112578434A (zh) * 2019-09-27 2021-03-30 中国石油化工股份有限公司 一种最小相位无限脉冲响应滤波方法及滤波系统
US11967329B2 (en) * 2020-02-20 2024-04-23 Qualcomm Incorporated Signaling for rendering tools
JP7147804B2 (ja) * 2020-03-25 2022-10-05 カシオ計算機株式会社 効果付与装置、方法、およびプログラム
FR3113993B1 (fr) * 2020-09-09 2023-02-24 Arkamys Procédé de spatialisation sonore
WO2022108494A1 (en) * 2020-11-17 2022-05-27 Dirac Research Ab Improved modeling and/or determination of binaural room impulse responses for audio applications
WO2023085186A1 (ja) * 2021-11-09 2023-05-19 ソニーグループ株式会社 情報処理装置、情報処理方法及び情報処理プログラム
CN116189698A (zh) * 2021-11-25 2023-05-30 广州视源电子科技股份有限公司 语音增强模型的训练方法及装置、存储介质及设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010226760A (ja) * 2003-02-26 2010-10-07 Fraunhofer Ges マルチチャンネルリスニングにおける自然のまたは修正された空間印象を再生するための方法及び装置、並びにその方法を実行するコンピュータープログラム

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5371799A (en) 1993-06-01 1994-12-06 Qsound Labs, Inc. Stereo headphone sound source localization system
DE4328620C1 (de) 1993-08-26 1995-01-19 Akg Akustische Kino Geraete Verfahren zur Simulation eines Raum- und/oder Klangeindrucks
US5955992A (en) * 1998-02-12 1999-09-21 Shattil; Steve J. Frequency-shifted feedback cavity used as a phased array antenna controller and carrier interference multiple access spread-spectrum transmitter
DK1072089T3 (da) 1998-03-25 2011-06-27 Dolby Lab Licensing Corp Fremgangsmåde og apparat til bearbejdning af audiosignaler
FR2836571B1 (fr) * 2002-02-28 2004-07-09 Remy Henri Denis Bruno Procede et dispositif de pilotage d'un ensemble de restitution d'un champ acoustique
FR2847376B1 (fr) 2002-11-19 2005-02-04 France Telecom Procede de traitement de donnees sonores et dispositif d'acquisition sonore mettant en oeuvre ce procede
US8027479B2 (en) 2006-06-02 2011-09-27 Coding Technologies Ab Binaural multi-channel decoder in the context of non-energy conserving upmix rules
FR2903562A1 (fr) * 2006-07-07 2008-01-11 France Telecom Spatialisation binaurale de donnees sonores encodees en compression.
US8271289B2 (en) 2007-02-14 2012-09-18 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
CN103716748A (zh) * 2007-03-01 2014-04-09 杰里·马哈布比 音频空间化及环境模拟
US20080273708A1 (en) * 2007-05-03 2008-11-06 Telefonaktiebolaget L M Ericsson (Publ) Early Reflection Method for Enhanced Externalization
WO2009046223A2 (en) 2007-10-03 2009-04-09 Creative Technology Ltd Spatial audio analysis and synthesis for binaural reproduction and format conversion
WO2010070016A1 (en) 2008-12-19 2010-06-24 Dolby Sweden Ab Method and apparatus for applying reverb to a multi-channel audio signal using spatial cue parameters
GB2476747B (en) * 2009-02-04 2011-12-21 Richard Furse Sound system
JP2011066868A (ja) 2009-08-18 2011-03-31 Victor Co Of Japan Ltd オーディオ信号符号化方法、符号化装置、復号化方法及び復号化装置
NZ587483A (en) 2010-08-20 2012-12-21 Ind Res Ltd Holophonic speaker system with filters that are pre-configured based on acoustic transfer functions
EP2423702A1 (en) 2010-08-27 2012-02-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for resolving ambiguity from a direction of arrival estimate
US9641951B2 (en) 2011-08-10 2017-05-02 The Johns Hopkins University System and method for fast binaural rendering of complex acoustic scenes
US9420393B2 (en) 2013-05-29 2016-08-16 Qualcomm Incorporated Binaural rendering of spherical harmonic coefficients
KR102257695B1 (ko) 2013-11-19 2021-05-31 소니그룹주식회사 음장 재현 장치 및 방법, 그리고 프로그램
US9897139B2 (en) 2013-11-22 2018-02-20 Jtekt Corporation Tapered roller bearing and power transmission apparatus

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010226760A (ja) * 2003-02-26 2010-10-07 Fraunhofer Ges マルチチャンネルリスニングにおける自然のまたは修正された空間印象を再生するための方法及び装置、並びにその方法を実行するコンピュータープログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020092409A (ja) * 2018-10-25 2020-06-11 クリエイティブ テクノロジー リミテッドCreative Technology Ltd ヘッドフォンを介した空間音響レンダリングのための室内特性を修正するシステムおよび方法
JP7038688B2 (ja) 2018-10-25 2022-03-18 クリエイティブ テクノロジー リミテッド ヘッドフォンを介した空間音響レンダリングのための室内特性を修正するシステムおよび方法

Also Published As

Publication number Publication date
EP3005733A1 (en) 2016-04-13
TWI615042B (zh) 2018-02-11
WO2014194005A1 (en) 2014-12-04
KR20160015268A (ko) 2016-02-12
EP3005734B1 (en) 2019-06-19
US9369818B2 (en) 2016-06-14
TW201509201A (zh) 2015-03-01
EP3005734A1 (en) 2016-04-13
JP6227764B2 (ja) 2017-11-08
JP6100441B2 (ja) 2017-03-22
CN105432097A (zh) 2016-03-23
EP3005735A1 (en) 2016-04-13
KR101719094B1 (ko) 2017-03-22
JP2016523465A (ja) 2016-08-08
US9674632B2 (en) 2017-06-06
KR101788954B1 (ko) 2017-10-20
CN105340298A (zh) 2016-02-17
CN105340298B (zh) 2017-05-31
KR20160015265A (ko) 2016-02-12
JP6067934B2 (ja) 2017-01-25
JP2016523466A (ja) 2016-08-08
CN105325013B (zh) 2017-11-21
US9420393B2 (en) 2016-08-16
US20140355795A1 (en) 2014-12-04
US20140355794A1 (en) 2014-12-04
KR101728274B1 (ko) 2017-04-18
EP3005733B1 (en) 2021-02-24
US20140355796A1 (en) 2014-12-04
CN105325013A (zh) 2016-02-10
EP3005735B1 (en) 2021-02-24
WO2014193993A1 (en) 2014-12-04
KR20160015269A (ko) 2016-02-12
CN105432097B (zh) 2017-04-26
WO2014194004A1 (en) 2014-12-04

Similar Documents

Publication Publication Date Title
JP6227764B2 (ja) バイノーラル室内インパルス応答を用いたフィルタリング
JP6067935B2 (ja) 回転された高次アンビソニックスのバイノーラル化
KR101146841B1 (ko) 바이노럴 오디오 신호를 생성하기 위한 방법 및 장치
JP6612337B2 (ja) 高次アンビソニックオーディオデータのスケーラブルコーディングのためのレイヤのシグナリング
JP2016510905A (ja) ビットストリームにおける球面調和係数および/または高次アンビソニックス係数の指定
JP2017525318A (ja) 高次アンビソニック(hoa)バックグラウンドチャネル間の相関の低減
AU2015330759A1 (en) Signaling channels for scalable coding of higher order ambisonic audio data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170509

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170724

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20170724

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20170830

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170912

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171011

R150 Certificate of patent or registration of utility model

Ref document number: 6227764

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees