JP2023532969A - 効率的な頭部関係フィルタ生成 - Google Patents

効率的な頭部関係フィルタ生成 Download PDF

Info

Publication number
JP2023532969A
JP2023532969A JP2023500082A JP2023500082A JP2023532969A JP 2023532969 A JP2023532969 A JP 2023532969A JP 2023500082 A JP2023500082 A JP 2023500082A JP 2023500082 A JP2023500082 A JP 2023500082A JP 2023532969 A JP2023532969 A JP 2023532969A
Authority
JP
Japan
Prior art keywords
basis functions
shape
basis
data
metadata
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023500082A
Other languages
English (en)
Inventor
トフゴード, トマス ヤンソン
ローリー ギャンブル,
Original Assignee
テレフオンアクチーボラゲット エルエム エリクソン(パブル)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テレフオンアクチーボラゲット エルエム エリクソン(パブル) filed Critical テレフオンアクチーボラゲット エルエム エリクソン(パブル)
Publication of JP2023532969A publication Critical patent/JP2023532969A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Filters That Use Time-Delay Elements (AREA)

Abstract

オーディオレンダリングのために頭部関係(HR)フィルタを生成するための方法が提供される。本方法は、HRフィルタモデルを示すHRフィルタモデルデータを生成することと、生成されたHRフィルタモデルデータに基づいて、(i)1つまたは複数の基底関数をサンプリングすることと、(ii)第1の基底関数形状データと形状メタデータとを生成することとを含む。本方法は、1つまたは複数の記憶媒体に記憶するために、生成された第1の基底関数形状データと形状メタデータとを提供することをさらに含む。【選択図】図7

Description

効率的な頭部関係フィルタ(head-related filter)生成のための方法およびシステムに関する実施形態が開示される。
人間の聴覚系は、傾聴者のほうへ伝搬する音(オーディオ)波をキャプチャする2つの耳を備えている。本開示では、「音(sound)」という単語と「オーディオ(audio)」という単語とが、互換的に使用される。図1は、球面座標系における仰角および方位角のペアによって指定される到来方向(DOA)から傾聴者のほうへ伝搬する音波を示す。傾聴者のほうへの伝搬経路上で、各音波は、傾聴者の左および右の鼓膜に達する前に、傾聴者の上部胴、頭部、外耳、および傾聴者の周囲の物質と相互作用する。この相互作用は、左および右の鼓膜に達する音波形の時間的およびスペクトル変化を生じ、そのうちのいくらかはDOA依存である。人間の聴覚系は、音波自体の様々な空間特性、ならびに傾聴者がいる音響環境を推論するために、これらの変化を解釈することを学んでいる。この能力は、空間聴力と呼ばれ、空間聴力は、傾聴者が、音イベント(物理音ソース)と傾聴者が中にいる物理的環境(たとえば、小さい部屋、タイル張りの浴室、オーディトリアム、窓のない部屋(cave))によって生じる音響特性とによって誘発される聴覚イベントのロケーションを推論するために、バイノーラル信号、すなわち、右および左耳道における音信号中に埋め込まれた空間キューをどのように評価するかに関係する。この人間の能力、すなわち、空間聴力は、音の空間知覚をもたらすであろう、空間キューをバイノーラル信号中に再導入することによって、空間オーディオシーンを作成するために活用され得る。
主要な空間キューは、(1)角度関係キュー:バイノーラルキュー、すなわち両耳間レベル差(ILD)および両耳間時間差(ITD)、ならびにモノラル(または、スペクトル)キューと、(2)距離関係キュー:強度および方向対残響(D/R)エネルギー比とを含む。波形の短時間(たとえば、1~5ミリ秒)DOA依存または角度関係の時間的およびスペクトル変化の数学的表現が、いわゆる頭部関係(HR)フィルタである。HRフィルタの周波数領域(FD)表現は、いわゆる頭部伝達関数(HRTF:head-related transfer function)であり、HRフィルタの時間領域(TD)表現は、いわゆる頭部インパルス応答(HRIR:head-related impulse response)である。図2は、傾聴者のほうへ伝搬している音波と両耳への音経路の差とを示し、この差がITDを生じる。図14は、図2に示されている音波のスペクトルキュー(HRフィルタ)の一例を示す。図14に示されている2つのプロットは、0度の仰角(θ)と40度の方位角(φ)とにおいて取得されたHRフィルタのペアの大きさ応答を示す。このデータは、画像処理および統合コンピューティングのためのセンタ(CIPIC:Center for Image Processing and Integrated Computing)データベースからのもの:対象者(subject)ID28である。このデータベースは、公開されており、リンクhttps://www.ece.ucdavis.edu/cipic/spatial-sound/hrtf-data/からアクセスされ得る。
HRフィルタベースのバイノーラルレンダリング手法が、徐々に確立されており、ここで、所望のロケーションのHRフィルタのペアを用いてオーディオソース信号を直接フィルタ処理することによって、空間オーディオシーンが生成される。この手法は、特に、(まとめてエクステンデッドリアリティ(XR)と呼ばれることがある)仮想現実(VR)、拡張現実(AR)、または複合現実(MR)などの多くの新生のアプリケーションと、ヘッドセットが通常使用される移動体通信システムとにとって魅力的である。
HRフィルタはしばしば、傾聴する対象者(たとえば、人工頭部、マネキン、または人間の対象者)から一定の半径の球面上の仰角と方位角とのあらかじめ規定されたセットにおける、傾聴する対象者の耳チャネル内で測定され得る、元の音信号(すなわち、入力信号)を左および右耳信号(すなわち、出力信号)に変換する線形動的システムのインパルス応答としての測定から推定される。推定されたHRフィルタは、しばしば、有限インパルス応答(FIR)フィルタとして提供され、直接そのフォーマットで使用され得る。効率的なバイノーラルレンダリングを達成するために、HRTFのペアが、急激なスペクトルピークを防ぐために両耳間伝達関数(ITF)または修正ITFにコンバートされ得る。代替的に、HRTFは、パラメトリック表現によって記述され得る。そのようなパラメータ化されたHRTFは、パラメトリックマルチチャネルオーディオコーダ(たとえば、MPEGサラウンドおよび空間オーディオオブジェクトコーディング(SAOC))と容易に統合され得る。
異なる空間オーディオレンダリング技法の品質について説明するために、最小可聴角(MAA:Minimum Audible Angle)の概念が有用であり得る。MAAは、音イベントの角変位に対する人間の聴覚系の感度を特徴づける。方位角における位置特定に関して、研究は、MAAが、広帯域雑音バーストの場合、前面および背面において最も小さく(約1度)、横方向音ソースについてはるかに大きい(約10度)ことを報告した。正中面におけるMAAは、仰角とともに増加する。仰角における平均で4度と同程度に小さいMAAが、広帯域雑音バーストの場合に報告されている。
空間における恣意的なロケーションにおける音の納得のいく空間知覚につながる、オーディオの空間レンダリングは、対応するロケーションのMAA内でロケーションを表現するHRフィルタのペアを必要とする。HRフィルタについての角度における不一致が、限度を下回る場合(すなわち、HRフィルタについての角度がMAA内にある場合)、不一致は傾聴者によって気づかれない。しかしながら、不一致がこの限度よりも大きい場合(すなわち、HRフィルタについての角度がMAA外にある場合)、そのようなより大きいロケーション不一致は、傾聴者が知覚する位置における対応してより顕著な不正確さにつながり得る。
HRフィルタ測定は、有限の測定ロケーションにおいてとられるが、オーディオレンダリングは、傾聴者の周囲の球体(たとえば、図1中の150)上の任意の可能なロケーションのためのHRフィルタを決定することを必要とし得る。したがって、マッピングの方法は、有限の測定ロケーションにおいて行われる個別測定から、連続球面角度領域にコンバートすることが必要とされる。そのようなマッピングのためのいくつかの方法が存在する。この方法は、最も近い利用可能な測定を直接使用すること、補間方法を使用すること、および/またはモデル化技法を使用することを含む。
1. 最も近い近隣測定ポイントの直接使用
マッピングのための最も単純な技法は、測定ポイントのセットの間で最も近接した(すなわち、最も近い)ポイントにおけるHRフィルタを使用することである。いくつかの計算作業が、最も近い近隣測定ポイントを決定するために必要とされ得、そのような作業は、傾聴者の周囲の球体上の測定ポイントの不規則にサンプリングされたセットにとって重要に(nontrivial)なることがある。一般的なオブジェクトロケーションの場合、(オブジェクトロケーションに対応する)所望のフィルタロケーションと、最も近接した利用可能なHRフィルタ測定ポイントとの間に、いくらかの角度誤差があり得る。HRフィルタ測定の疎にサンプリングされたセットの場合、これは、オブジェクトロケーションにおける顕著な誤差につながり得る。誤差は、測定ポイントのより密にサンプリングされたセットが使用されるとき、低減されるかまたは事実上除去され得る。移動するオブジェクトの場合、HRフィルタは、意図された滑らかな移動に対応しない段階的様式で変化する。
概して、HRフィルタの密にサンプリングされた測定は、人間の対象者についてとることが困難であり、これは、この測定が、対象者がデータ収集中に動かずに座っていなければならないことを必要とし、対象者の小さい偶発的移動が、達成され得る角度分解能を限定するからである。また、その測定プロセスは、対象者と技術者の両方にとって時間がかかる。そのような密にサンプリングされた測定をとることの代わりに、欠落したHRフィルタに関する空間関係情報を推論することは、(以下で説明される)疎にサンプリングされたHRフィルタデータセットを仮定すれば、より効率的であり得る。密にサンプリングされたHRフィルタ測定は、ダミー頭部についてキャプチャすることが容易であるが、得られたHRフィルタセットは、すべての傾聴者に常に好適であるとは限らず、不正確なまたはあいまいなオブジェクトロケーションの知覚につながることがある。
2. 近隣測定ポイント間の補間
サンプル測定ポイントが十分に密に離間していない場合、近隣測定ポイント間の補間が、必要とされるDOAのための近似フィルタを生成するために使用され得る。補間フィルタは、個別サンプル測定ポイント間で連続的様式で変動し、上記の方法(すなわち、方法1)が使用されるときに発生し得る急激な変化を回避する。この補間方法は、補間HRフィルタ値を生成する際に追加の複雑さを招き、得られたHRフィルタは、異なるロケーションからのフィルタを混合することにより、広がって(より少ないポイントのように)知覚されるDOAを有する。また、フィルタを直接混合することから起こる位相整合問題を防ぐための措置がとられる必要があり、これは、複雑さを追加することがある。
3. モデル化ベースのフィルタ生成
HRフィルタとHRフィルタが角度とともにどのように変動するかとにつながる基礎をなすシステムのためのモデルを構築するために、より高度な技法が使用され得る。HRフィルタ測定のセットを仮定すれば、モデルパラメータが、最小誤差で測定を再生するように、およびそれにより測定ロケーションにおいてだけでなく角度空間の連続関数としてより全体的にHRフィルタを生成するための機構を作成するように、チューニングされる。
DOAの連続関数としてHRフィルタを生成するための他の方法が存在し、それらは、測定の入力セットを必要としないが、代わりに、HRフィルタの挙動を予測するために傾聴者の頭部の周りの波伝搬をモデル化するために、傾聴者の頭部および耳の高分解能3D走査を使用する。
HRフィルタを表現するために重み付けされた基底関数およびベクトルを利用するHRフィルタモデルのカテゴリーが、以下で提示される。
3.1. 重み付けされた基底ベクトルを使用するHRフィルタモデル-数学的フレームワーク
以下の形式をもつHRフィルタのためのモデルを考慮する。
Figure 2023532969000002
ここで、
Figure 2023532969000003
は推定されたHRフィルタであり、特定の(θ,φ)角度についての長さKのベクトル、αn,kは、角度(θ,φ)に依存しないスカラ重み付け値のセットであり、
k,n(θ,φ)は、角度(θ,φ)に依存するスカラ値関数のセットであり、
は、
Figure 2023532969000004
フィルタのK次元空間にわたる直交基底ベクトルのセットである。
モデル関数Fk,n(θ,φ)は、モデル設計の一部として決定され、通常、仰角および方位角次元にわたるHRフィルタセットの変動がうまくキャプチャされるように選定される。指定されたモデル関数では、モデルパラメータαn,kは、最小化された最小2乗法などのデータフィッティング法を用いて推定され得る。
HRフィルタ係数のすべてのために同じモデル化関数を使用することは珍しくなく、これは、このタイプのモデルの特定のサブセットを生じ、ここで、モデル関数Fk,n(θ,φ)は、フィルタ内の位置kに依存しない。
k,n(θ,φ)=F(θ,φ),∀k (2)
したがって、モデルは次のように表され得る。
Figure 2023532969000005
一実施形態では、e基底ベクトルは、使用されている座標系と整合された自然基底ベクトルe=[1,0,0,...0]、e=[0,1,0,...0]、...である。コンパクトさのために、自然基底ベクトルが使用されるとき、そのベクトルは以下に書き直され得る。
Figure 2023532969000006
ここで、αは、長さKのベクトルである。これは、モデルのための以下の等価な式につながる。
Figure 2023532969000007
すなわち、パラメータαn,kが推定されると、
Figure 2023532969000008
は、固定の基底ベクトルαの線形結合(linear combination)として表され得、ここで、HRフィルタの角度変動は、重み付け値F(θ,φ)においてキャプチャされる。
したがって、個々のフィルタ係数kが次のように取得される。
Figure 2023532969000009
この等価な式は、単位基底ベクトルが自然基底ベクトルである場合、コンパクトな式である。しかしながら、以下の方法は、任意の領域で(非直交基底ベクトルならびに直交基底ベクトルを含む)基底ベクトルの任意の選定を使用するモデルに、(この好都合な記法なしに)適用され得る。同じ、基礎をなすモデル化技法の他の実施形態は、時間領域における(たとえば、エルミート多項式、シヌソイド(sinusoid)など)、または周波数領域など、時間領域以外の領域における(たとえば、フーリエ変換を介した)、またはHRフィルタを表すことが自然である任意の他の領域における、基底ベクトルの異なる選定であろう。

Figure 2023532969000010
は、等式(5)において指定されたモデル評価の結果であり、同じロケーションにおけるhの測定と同様であるべきである。hの実測定が知られているテストポイント(θtest,φtest)について、h(θtest,φtest)と
Figure 2023532969000011
とが、モデルの品質を評価するために比較され得る。モデルが正確であると見なされた場合、モデルは、必ずしもhが測定されたポイントのうちの1つであるとは限らない何らかの一般的なポイントについて、推定
Figure 2023532969000012
を生成するために使用され得る。
等式(5)の等価な行列定式化は、以下の通りである。
Figure 2023532969000013
ここで、f(θ,φ)=一方の耳のための重み付け値の行ベクトルであり、これは長さNを有し、すなわち、f(θ,φ)=[F(θ,φ),F(θ,φ),...,F(θ,φ)]であり、α=一方の耳のための基底関数であり、これは行列K行×N列における行として構成され、すなわち、以下である。
Figure 2023532969000014
(参照により本明細書に組み込まれる)WO2021/074294において説明されるように、Bスプライン関数は、仰角θおよび方位角φのためのHRフィルタモデル化のための好適な基底関数である。これは、関数F(θ,φ)が次のように決定され得ることを示す。
(θ,φ)=Θ(θ)Φp,q(φ) (8)
p=1,...,、Pおよびq=1,...,Qpについて、n=(p-1)Q+qである。Pは仰角基底関数の数であり、Qは、異なる仰角pについて変動し得る、方位角基底関数の数である。仰角の場合、標準Bスプライン関数が使用され得、方位角の場合、周期的Bスプライン関数が使用され得る。
上記で説明されたように、角度の連続領域上のHRフィルタを推論するための3つのタイプの方法は、計算複雑さの変動するレベルと、知覚されるロケーション精度の変動するレベルとを有する。最も近い近隣測定ポイントの直接使用は、最も単純であるが、HRフィルタの密にサンプリングされた測定を必要とし、その測定は、取得することが容易でなく、通常、大量のデータを生じる。対照的に、HRフィルタのためのモデルを使用する方法は、それらが、DOAが変化するにつれて滑らかに変動する、ポイントのような位置特定プロパティをもつHRフィルタを生成することができるという利点を有する。これらの方法はまた、よりコンパクトな形式でHRフィルタのセットを表現し、したがって、送信および/または(それらが使用中であるときのプログラムメモリにおける記憶を含む)記憶のためにより少ないリソースを必要とし得る。これらの利点は、数値複雑さという犠牲を払う(そのモデルは、HRフィルタを生成するために、そのフィルタが使用され得る前に評価されなければならない)。そのような複雑さは、限定された計算容量をもつレンダリングシステムにとって、そのような限定された容量が、たとえば、リアルタイムオーディオシーンにおいて、レンダリングされ得るオーディオオブジェクトの数を限定するので、問題である。
空間オーディオレンダラでは、等式(5)などのモデル評価式からリアルタイムで任意の仰角-方位角のためのHRフィルタを評価することが可能であることが、望ましい。したがって、等式(5)において指定されるHRフィルタ評価は、極めて効率的に実行される必要がある。
HRフィルタモデルの繰返し評価は、モデル出力を評価する際にだけでなく、モデルの基底関数を評価する際にも、複雑さという欠点がある。さらに、ある基底関数の寄与は、あるHRフィルタ方向の評価についてわずか(たとえば、0)であり得る。これは、フィルタ評価が不必要に複雑になることを意味する。一方、HRフィルタ評価のために必要とされるメモリ消費は、特に、メモリ可能性と計算複雑さ可能性の両方が限定されるモバイルデバイスにおける利用のために、大幅に増加されないことが極めて重要である。
(たとえば、WO2021/074294において説明される)Bスプライン基底関数から、等式(5)において説明されるフィルタ評価は、F(θ,φ)の決定を含むことになることがわかり得、
Figure 2023532969000015
の評価における、仰角pごとのP・Q乗算と、さらには係数nごとのP・Q乗算および加算とを伴う。これらの演算は、後で、あらゆるフィルタ係数kごとに実行され、これは、全部でHRフィルタ
Figure 2023532969000016
の評価のためのかなりの数の演算を生じる。
図3(a)および図3(b)は、周期的Bスプライン基底関数を示す。
図3(a)は、[0,360]度モデル化範囲のための4つの周期的Bスプライン基底関数の一例を示す。ノットポイントが、0(=360)度、90度、180度および270度にある。この例では、ノットポイント間の各セグメント内のすべての基底関数が、非0である。
図3(b)は、[0,360]度モデル化範囲のための8つの周期的Bスプライン基底関数の一例を示す。ノットポイントが、0(=360)度、45度、...、315度にある。この場合、各基底関数の非0部分が、モデル化範囲の1/2のみ、すなわち180度のみをカバーする。
図3(a)および図3(b)に示されているように、いくつかのBスプライン設定の場合、ほんのいくつかのBスプライン関数が、ある方向(θ,φ)について非0である。たとえば、図3(b)中の0度において開始するBスプライン関数は、180~360度間のいずれの角度についても0になり得る。これは、等式(5)のHRフィルタ評価が、0成分をもつかなりの数の乗算および加算を伴い得ることを意味する。その結果は、複雑さ非効率的なモデルベースのHRフィルタ評価である。
本開示のいくつかの実施形態によれば、非効率的なHRフィルタ評価の問題は、複雑さ効率的なHRフィルタ評価のためのメモリ効率的な構造化された表現、ならびに/または0値成分による乗算および加算の回避によって解決され得る。
したがって、一態様では、オーディオレンダリングのために頭部関係(HR)フィルタを生成するための方法が提供される。本方法は、HRフィルタモデルを示すHRフィルタモデルデータを生成することを含む。HRフィルタモデルデータを生成することは、1つまたは複数の基底関数の少なくとも1つのセットを選択することを含む。本方法は、生成されたHRフィルタモデルデータに基づいて、(i)前記1つまたは複数の基底関数をサンプリングすることと、(ii)第1の基底関数形状データと形状メタデータとを生成することとをも含む。第1の基底関数形状データは、前記1つまたは複数の基底関数の1つまたは複数のコンパクトな表現を識別し、形状メタデータは、前記1つまたは複数の基底関数に関する前記1つまたは複数のコンパクトな表現の構造に関する情報を含む。本方法は、1つまたは複数の記憶媒体に記憶するために、第1の生成された基底関数形状データと形状メタデータとを提供することをさらに含む。
いくつかの実施形態では、本方法は、トリガリングイベントの発生を検出することをさらに含み得る。そのようなトリガリングイベントは、オーディオレンダリングのために頭部関係(HR)フィルタが生成されるべきであることを示し得、これは、たとえば、オーディオのフレームをレンダリングするために、または後で使用するためにメモリに記憶される頭部関係(HR)フィルタの生成によってレンダリングを準備するために、頭部関係(HR)フィルタが要求されるとき、オーディオレンダラから誘起され得る。いくつかの実施形態では、トリガリングイベントは、1つまたは複数の記憶媒体から基底関数形状データおよび/または形状メタデータを取り出すという判断にすぎない。本方法は、トリガリングイベントの発生を検出したことの結果として、オーディオレンダリングのために第2の基底関数形状データと形状メタデータとを出力することをさらに含み得る。
別の態様では、オーディオレンダリングのために頭部関係(HR)フィルタを生成するための方法が提供される。本方法は、1つまたは複数の基底関数の1つまたは複数のコンパクトな表現のコンバートされたバージョンを取得すべきかどうかを示す形状メタデータを取得することを含む。本方法は、(i)前記1つまたは複数の基底関数の前記1つまたは複数のコンパクトな表現または(ii)前記1つまたは複数の基底関数の前記1つまたは複数のコンパクトな表現のコンバートされたバージョンを識別する、基底関数形状データを取得することをさらに含む。本方法は、取得された形状メタデータと取得された基底関数形状データとに基づいて、(i)前記1つまたは複数の基底関数の前記1つまたは複数のコンパクトな表現または(ii)前記1つまたは複数の基底関数の前記1つまたは複数のコンパクトな表現のコンバートされたバージョンを使用することによって、HRフィルタを生成することをさらに含む。
別の態様では、オーディオレンダリングのために頭部関係(HR)フィルタを生成するための装置が提供される。本装置は、HRフィルタモデルを示すHRフィルタモデルデータを生成するように適応される。HRフィルタモデルデータを生成することは、1つまたは複数の基底関数の少なくとも1つのセットを選択することを含む。本装置は、生成されたHRフィルタモデルデータに基づいて、(i)前記1つまたは複数の基底関数をサンプリングすることと、(ii)第1の基底関数形状データと形状メタデータとを生成することとを行うようにさらに適応される。第1の基底関数形状データは、前記1つまたは複数の基底関数の1つまたは複数のコンパクトな表現を識別し、形状メタデータは、前記1つまたは複数の基底関数に関する前記1つまたは複数のコンパクトな表現の構造に関する情報を含む。本装置は、1つまたは複数の記憶媒体に記憶するために、生成された第1の基底関数形状データと形状メタデータとを提供するようにさらに適応される。
本装置は、トリガリングイベントの発生を検出することと、トリガリングイベントの発生を検出したことの結果として、オーディオレンダリングのために第2の基底関数形状データと形状メタデータとを出力することとを行うようにさらに適応される。そのようなトリガリングイベントは、オーディオレンダリングのために頭部関係(HR)フィルタが生成されるべきであることを示し得、これは、たとえば、オーディオのフレームをレンダリングするために、または後で使用するためにメモリに記憶される頭部関係(HR)フィルタの生成によってレンダリングを準備するために、頭部関係(HR)フィルタが要求されるとき、オーディオレンダラから誘起され得る。いくつかの実施形態では、トリガリングイベントは、1つまたは複数の記憶媒体から基底関数形状データおよび/または形状メタデータを取り出すという判断にすぎない。一実施形態では、本装置は、処理回路と、本明細書で開示されるプロセスのいずれかを実施するように本装置を設定するための命令を記憶する記憶ユニットとを備える。
別の態様では、オーディオレンダリングのために頭部関係(HR)フィルタを生成するための装置が提供される。本装置は、1つまたは複数の基底関数の1つまたは複数のコンパクトな表現のコンバートされたバージョンを取得すべきかどうかを示す形状メタデータを取得するように適応される。本装置は、(i)前記1つまたは複数の基底関数の前記1つまたは複数のコンパクトな表現または(ii)前記1つまたは複数の基底関数の前記1つまたは複数のコンパクトな表現のコンバートされたバージョンを識別する、基底関数形状データを取得するようにさらに適応される。本装置は、取得された形状メタデータと取得された基底関数形状データとに基づいて、(i)前記1つまたは複数の基底関数の前記1つまたは複数のコンパクトな表現または(ii)前記1つまたは複数の基底関数の前記1つまたは複数のコンパクトな表現のコンバートされたバージョンを使用することによって、HRフィルタを生成するようにさらに適応される。
別の態様では、処理回路によって実行されたとき、処理回路に、上記で説明された方法を実施させる命令を備えるコンピュータプログラムが提供される。一実施形態では、コンピュータプログラムを含んでいるキャリアが提供され、キャリアは、電子信号、光信号、無線信号、およびコンピュータ可読記憶媒体のうちの1つである。
本開示の実施形態は、たとえば、傾聴者に対する位置(r,θ,φ)におけるモノソースをレンダリングするために、モデル化ベースのHRフィルタを利用する空間オーディオレンダラにとって知覚的に透過(非可聴)最適化を可能にし、ここで、rは、半径であり、(θ,φ)は、それぞれ、仰角および方位角である。
本明細書に組み込まれ、明細書の一部をなす添付の図面は、様々な実施形態を示している。
角度θ,φに位置するソースから傾聴者のほうへの音波の伝搬を示す図である。 頭部および耳と相互作用する、傾聴者のほうへ伝搬する音波と、得られたITDとを示す図である。 図3(a)~図3(b)は、例示的な周期的Bスプライン基底関数を示す図である。 図4(a)~図4(c)は、図3(a)~図3(b)に示されている基底関数の例示的なコンパクトな表現を示す図である。 例示的な標準Bスプライン基底関数を示す図である。 図6(a)~図6(d)は、図5に示されている基底関数の例示的なコンパクトな表現を示す図である。 いくつかの実施形態による、システムの図である。 いくつかの実施形態による、HRフィルタを生成するためのプロセスの図である。 いくつかの実施形態による、システムの図である。 いくつかの実施形態による、装置を示す図である。 いくつかの実施形態による、装置を示す図である。 いくつかの実施形態による、プロセスの図である。 いくつかの実施形態による、プロセスの図である。 いくつかの実施形態による、装置の図である。 図2に示されている音波のITDおよびHRフィルタを示す図である。
本開示のいくつかの実施形態は、バイノーラルオーディオレンダラを対象とする。レンダラは、スタンドアロンで動作するか、またはオーディオコーデックとともに動作し得る。潜在的に圧縮されたオーディオ信号およびそれらの関係するメタデータ(たとえば、レンダリングされたオーディオソースの位置を指定するデータ)が、オーディオレンダラに提供され得る。レンダラはまた、頭部追跡デバイス(たとえば、加速度計、ジャイロスコープ、コンパスなどの(1つまたは複数の)インサイドアウト慣性ベースの追跡デバイス、またはLIDARなどの(1つまたは複数の)アウトサイドインベースの追跡デバイス)から取得された頭部追跡データを提供され得る。そのような頭部追跡データは、(たとえば、オーディオオブジェクト(ソース)が、傾聴者の頭部回転に依存せずに空間における固定位置において知覚されるように)レンダリングのために使用されるメタデータ(すなわち、レンダリングメタデータ)に影響を及ぼし得る。レンダラは、バイノーラル化(binauralization)のために使用されるべきHRフィルタをも取得する。本開示の実施形態は、WO2021/074294または等式(1)による重み付けされた基底ベクトルに基づく、HRフィルタ生成のための効率的な表現および方法を提供する。
スカラ値関数F(θ,φ)は、P仰角基底関数のセットΘ(θ),p=0,...,p-1とQ方位角基底関数のセットΦ(φ)との関数g(・)であると仮定される。WO2021/074294において説明されるように、方位角基底関数または仰角基底関数のセットはまた、異なるpまたはqについて変動し得る(たとえば、仰角関数インデックス(index)pに依存する方位角基底関数Φp,q(θ)の数を変動させ、これは、方位角基底関数Qの数がpに依存することを意味する)。一実施形態では、F(θ,φ)は、Θ(θ)とΦp,q(φ)との積として選択され得る。言い換えれば、
(θ,φ)=g(Θ(θ),Φp,q(φ))=Θ(θ)Φp,q(φ) (9)
である。
本開示のいくつかの実施形態は、(1つまたは複数の)HRフィルタモデルの効率的な構造に基づき、知覚的に、仰角基底関数Θ(θ)および方位角基底関数Φ(φ)の空間サンプリングに基づく。
1. HRフィルタモデル設計
最初に、(等式(1)に対応する)HRフィルタモデルは、HRフィルタ長Kと、仰角基底関数の数Pと、方位角基底関数の数Qと、基底関数のセットΘ(θ)およびΦp,q(φ)との選択によって設計され得る。各基底関数は、滑らかであり、仰角モデル化範囲および方位角モデル化範囲のいくつかのセグメント(角度)(たとえば、それぞれ、[-90,...,90]および[0,...,360]のいくつかの部分)に、より多くの重みを課し得る。したがって、モデル化範囲のいくつかのセグメントについて、ある基底関数が0であり得る。
いくつかの実施形態では、仰角基底関数および方位角基底関数が、HRフィルタモデル化と効率的な構造化されたHRフィルタ生成とのために効率的に使用されるためのいくつかのプロパティを用いて設計/選択される。基底関数は、周期的モデル化範囲にわたって規定され得る(たとえば、図3(a)および図3(b)に示されているように0/360度方位角境界において連続する、または非周期的範囲、たとえば、図5に示されているように[-90,90]度仰角にわたって規定される)。
したがって、いくつかの実施形態によれば、
[プロパティ1]基底関数のうちの少なくとも1つは、非0値である第1のセグメントと、0値である別のセグメントとを有する、ならびに/あるいは
[プロパティ2]基底関数のうちの前記少なくとも1つの非0部分は、
a. 別の基底関数の非0部分に等しい、または
b. 同じ形状をもつ別の基底関数の非0部分の長さの単位分数である非0部分の長さを有し、すなわち
Figure 2023532969000017
であり、ここで、LおよびLは、それぞれの長さであり、x=1,2,3,...,である、および/または
c. 対称的である、または
d. 別の基底関数の非0部分のミラー(逆)である。
同じプロパティを有する基底関数がより多いと、より効率的な実装が行われ得る。しかしながら、基底関数の選定にも影響を及ぼし得る、モデル化効率および性能など、他のファクタがあり得る。たとえば、測定されたHRフィルタデータのサンプリンググリッドに応じて、劣決定系を得ることを回避するために異なる数の基底関数が選択されるべきである。基底関数は、一般に分析的に(たとえば、多項式によるスプラインとして)説明され得る。
いくつかの実施形態では、3次Bスプライン関数(すなわち、4次または次数3)が、それぞれ、方位角および仰角のための基底関数Φp,q(φ)およびΘ(θ)として使用される。
図3(a)および図3(b)は、方位角のための周期的Bスプライン基底関数を示し、図5は、仰角のための対応する標準Bスプライン基底関数を示す。ポイントは、図におけるより良い弁別のために異なるシンボルでマークを付けられているが、関数は、連続であり、任意の角度において評価され得る。
2. HRフィルタモデル化
モデルを規定するモデル設計パラメータ(たとえば、K、P、Q、Θ(θ)およびΦp,q(φ))は、HRフィルタモデル化のために後で使用され得、ここで、モデルパラメータαn,kは、(たとえば、WO2021/074294において説明される)最小化された最小2乗法などのデータフィッティング法を用いて推定され得る。
3. 基底関数サンプリング
本開示の実施形態の一態様は、基底関数Φp,q(θ)およびΘ(θ)の知覚的に動機付けされたサンプリングである。研究が示したように、最小可聴角(MAA)がある。MAAよりも小さい角度変化は、知覚されない。この観測に基づいて、方位角サンプリング間隔ΔΦおよび仰角サンプリング間隔ΔΘが、選択され得る。研究は、透過品質(すなわち、非可聴損失)のためにΔΦ=1°およびΔΘ=4°を提案するが、HRフィルタ評価のための空間精度要件およびメモリ要件および(計算に関する)複雑さ要件間の妥協点として、より大きいサンプリング間隔が選択され得る。
選定されたサンプル離間値(sample spacing value)ΔΦ、ΔΘが、MAAよりも大きい場合、滑らかに変動する曲線を生成し、サンプルポイントの非常に粗く離間されたセットにより発生し得る階段状の変化を回避するために、補間が使用され得る(この手法は、さらにメモリ使用量を低減するが、数値複雑さを増加させる)。基底関数サンプリングは、一般に、前処理段において実施され得、ここで、HRフィルタ評価のために使用されるべきサンプリングされた基底関数が生成され、メモリに記憶される。
3.1. 周期的Bスプライン基底関数の効率的な表現
図3(a)および図3(b)は、方位角のための周期的Bスプライン関数の2つの例を示し、各々が、360度をカバーする基底関数のセットを示す。図に示されているように、両方の例において、基底関数のすべての等しい対称的非0部分(上記で説明されたプロパティ2aおよび2cのコヒーレント)が取得され、これは、常に、ノットポイント間に一定の離間がある限り、起こる。
これは、周期的Bスプライン基底関数の各々が(その対称特性により)その非0形状の1/2によって効率的に表現され得ることを意味する。Bスプライン基底関数は、ランタイム中に計算され得るが、Bスプライン基底関数のあらかじめ計算された形状(すなわち、数値サンプリング)をメモリに記憶することが、計算複雑さに関してより効率的である。一方、概して、メモリ要件(すなわち、あらかじめ計算された形状を記憶するために必要とされるメモリ容量)を最小限に抑えることが望ましい。本開示の実施形態による(1つまたは複数の)Bスプライン基底関数の構造は、計算複雑さ要件とメモリ要件との間の良好な妥協点を提供する。
HRフィルタ測定ポイントの数は、一般に、0°仰角において最高であり、±90°に向かって減少するので、より少数の基底関数が、サンプリング球体の極エリアに向けて利用され得る。
仰角ごとの変動する数の方位角Bスプライン基底関数を用いて、異なるノットポイント間隔I(p)をもつ周期的Bスプライン関数のセットのためのコンパクトな表現が、取得され得る。
ノットポイント間隔が整数デシメーションファクタ(decimation factor)Mについて
Figure 2023532969000018
である場合、基底関数の非0部分は、上記の本開示のセクション1において説明されたプロパティ2bとコヒーレントであることになり、別個の形状が記憶される必要がないが、デシメーションファクタMのみが、形状を復元するために必要である。この場合、最大のノットポイント間隔I(p)をもつ形状のM番目ごとのポイントが、ノットポイント間隔I(p)=I/Mをもつ形状のサンプルに対応する。これは、図4(a)~図4(c)に示されている。
図4(a)~図4(c)は、図3(a)~図3(b)のBスプライン基礎関数のコンパクトな表現を示す。周期的基底関数の非0部分が対称的であるので、完全な形状を表現するために形状の1/2のみが必要とされる。さらに、図3(b)サンプルポイント(○(circle))のBスプライン基底関数は、図3(a)サンプルポイント(+(plus))のサブサンプリングによって取得される。図4(a)では、+は、図3(a)中の基底関数のサンプルポイントの1/2を表現する。図4(b)では、○は、図3(b)中の基底関数のサンプルポイントの1/2を表現する。図4(c)は、(a)と(b)との重ねられた形状関数(overlaid shape function)を示す。+が[0,...,180]度の範囲を表現し、○が[0,...,90]度の範囲を表現するが、形状関数(b)は、形状関数(a)のサブサンプリングによって取得され得る。
上記で説明されたように、図4(a)~図4(c)では、図3(b)中の形状のサンプルポイント(○)は、図3(a)の形状のための1つおきのサンプルポイント(+)として取得され得る。
3.2 標準Bスプライン基底関数の効率的な表現
周期的Bスプライン基底関数に関しては、コンパクトな表現が、標準Bスプライン基底関数のサンプリングによって取得され得る。
図5は、P=9の場合の標準仰角Bスプライン基底関数を示す。図5に示されている基底関数のうちのいくつかは、周期的Bスプライン基底関数(たとえば、図3(a)および図3(b)に示されている基底関数)の場合のように対称的ではないが、(左側から)最初および最後のスプライン関数が、(上記の本開示のセクション1において説明されたプロパティ2dとコヒーレントな)非0部分について互いのミラー形状(mirrored shape)を有することが、わかり得る。同様に、2番目および最後から2番目の非0スプライン関数は互いのミラー形状を有し、3番目および最後から3番目の非0スプライン関数は互いのミラー形状を有する。ミラー形状を有するこれらのプロパティは、基底関数のメモリ効率的な記憶を可能にする。したがって、いくつかの実施形態では、ノットポイントのための一定の間隔が、選好および使用され得る。モデル評価のために、記憶された形状が、評価されているセグメントに応じて前方にまたは後方に読み取られ得る。図5に示されている4番目~最後から4番目(4番目、5番目および6番目)のBスプライン基底関数は、方位角Bスプライン基底関数と同じプロパティを保持し、すなわち、非0部分について対称的であり、等しい。
図6(a)~図6(b)は、図5に示されている標準Bスプライン基底関数のコンパクトな表現を示す。
図6(a)は、図5の最初のおよび最後の基底関数のコンパクトな表現を示す。これは、最後の基底関数の非0部分のミラー形状に対応する。
図6(b)は、図5の2番目および最後から2番目の基底関数のコンパクトな表現を示す。これは、最後から2番目の基底関数の非0部分のミラー形状に対応する。
図6(c)は、図5の3番目および最後から3番目の基底関数のコンパクトな表現を示す。これは、最後から3番目の基底関数の非0部分のミラー形状に対応する。
図6(d)は、図5の4番目、5番目および6番目の基底関数のコンパクトな表現を示す。これは、基底関数の対称的な非0部分の1/2に対応する。
モデル化範囲(この場合、-90°から90°の間)をカバーするBスプライン基底関数の総数に依存せずに、4つの依存しない非0Bスプライン基底関数形状のみが必要とされる。さらに、これらの非0Bスプライン関数形状のうちの1つ(たとえば、図6(d)に示されている関数)は、周期的スプライン関数に関して、対称的であり、したがって非0部分の1/2のみが記憶される必要がある。
3.3 メモリへの記憶
基底関数サンプリングの結果として、基底関数のコンパクトな表現(すなわち、基底関数形状)は、形状メタデータとともにメモリに記憶される。形状メタデータは、以下のいずれか1つまたは組合せを表現する情報を備え得る。
1. 基底関数の数(方位角基底関数の数は異なる仰角について異なり得る)、
2. (モデル化間隔内の)各基底関数の開始ポイント、
3. 基底関数ごとの形状インデックス(記憶された形状のうちのどれを基底関数のために使用すべきかを識別する)、
4. 基底関数ごとの形状リサンプリングファクタM、
5. 基底関数ごとの反転インジケータ(その特定の基底関数について、記憶された形状を反転すべきか否かを示す)、
6. Bスプラインなどの基底関数構造、および
7. 各基底関数の非0部分の幅。
いくつかの実施形態では、反転インジケータが、記憶された形状が反転される必要があることを示す場合、記憶媒体に記憶された形状は、反転された形状(flipped shape)がレンダラに提供されるように記憶媒体から後方に読み取られ得る。
いくつかのパラメータ(たとえば、反転インジケータおよび基底関数構造)は、いくつかの実施形態では(特に、モデル構造がレンダラにすでに知られているとき)、レンダラに記憶され、送信される必要がないことがある。たとえば、標準3次Bスプラインが、図5の場合のように利用される場合、基底関数サンプリングと構造化されたHRフィルタ生成との両方が最初の4つの形状(最初の3つの形状と4番目の形状の1/2)がその順番で記憶されたと仮定することが、知られている場合は、最後の3つの基底関数が反転される必要があることをシグナリングする必要がない。最初および最後の3つの基底関数の間におけるすべての基底関数が、4番目の記憶された形状によって構成され得ることが、さらに知られ得る。Bスプラインの場合、形状メタデータは、代わりに、ノットポイントに関する情報を含み得る。周期的Bスプライン関数が方位角基底関数のために使用され、標準Bスプライン関数が仰角のために使用されることも知られ得る。これは、形状メタデータパラメータが異なる記憶媒体に記憶され得る一例である。
さらに、HRフィルタモデルパラメータαn,kが、基底関数形状および対応する形状メタデータとともにメモリに記憶される。他の実施形態では、HRフィルタモデルパラメータ、基底関数形状、および/または形状メタデータが、異なる記憶媒体に記憶され得る。
4. HRフィルタ生成
記憶された形状およびパラメータに基づいて、構造化されたHRフィルタ生成が、メモリから基底関数形状を読み取ることと、それらを形状メタデータに基づいて各基底関数のために正しく適用することと、不要な計算複雑さ(たとえば、不要な乗算および加算)を回避することとによって実施され得、それによりHRフィルタモデルパラメータαn,kを使用したHRフィルタの極めて効率的な評価を生じる。
Bスプライン基底関数のサンプリングは、サンプリングされた基底関数の構造化された表形式化によって、(オーディオレンダリングに関与する)計算複雑さを低減し得るが、HRフィルタ生成(またはモデル評価)も、計算複雑さをさらに低減するように最適化され得る。
あらゆる方向(θ,φ)について、図3および図5による方位角基底関数および仰角基底関数(すなわち、3次Bスプライン基底関数)の構造を仮定すると、評価されるべきあらゆる方位角および仰角のために多くとも4つの非0Bスプライン基底関数が存在する。したがって、等式(8)におけるF(θ,φ)の評価の場合、多くとも4・4=16個の非0成分があることになる。したがって、等式(5)におけるフィルタ評価は、低減されて以下の等式になり得る。
Figure 2023532969000019
ここで、
Figure 2023532969000020
は、F(θ,φ)のすべての非0成分を示す。
N=P・Qの完全な評価と比較して(ここで、定数の方位角基底関数、すなわち、すべてのpについてQ=Qを仮定する)、等式(9)に基づくHRフィルタ生成は、複雑さにおけるかなりの節減を提供し、これは、HRフィルタデータをモデル化するためにより多くの基底関数が使用されるほど、より大きくなる。
たいていのポイントにおいて、4つの非0基底関数があるが、ノットポイントにおいて、4つよりも少ない基底関数が非0成分に寄与する。
以下は、HRフィルタの生成のために最適化されたモデル評価を提供するための方法について説明する。
4.1 周期的Bスプライン基底関数(方位角の場合)のための基底評価
(1) ノットセグメントインデックスI(θ,φ)を決定する。
Figure 2023532969000021
ここで、φは、評価されるべき方位角であり、I(0)は、最初のノットポイントにおける方位角であり、I(p)は、インデックスpの仰角における方位角Bスプライン関数のためのノットポイント間隔である。
(2) 最も近いセグメントサンプルポイントを決定する。
Figure 2023532969000022
ここで、round()は丸め関数であり、N(p)は、セグメントごとのサンプルの数であり(たとえば、
Figure 2023532969000023
)、M(p)は、インデックスpの仰角のためのデシメーションファクタである。好適な丸め関数の一例は、以下である。
Figure 2023532969000024
ここで、
Figure 2023532969000025
は、その入力よりも小さいかまたはそれに等しい最も大きい整数を出力する床関数を示す。
(3) 方位角のための非0基底関数の数
Figure 2023532969000026
を決定する。
Figure 2023532969000027
(4) Bスプラインサンプル値および形状インデックスを計算する。
Figure 2023532969000028
ここで、Sは、(上記のセクション3.1において説明された)ファクタM(p)によってサブサンプリングされる、仰角pにおける1/2のサンプリングされた形状関数である。記憶された形状値
Figure 2023532969000029
のインデックス
Figure 2023532969000030
も、記憶される。Qは、仰角インデックスpのための方位角Bスプライン基底関数の総数である。mod(・)は、評価される方位角φがノットポイント上にあるかどうかを決定するために使用されるモジュロ関数である。
4.2 標準Bスプライン関数(仰角の場合)のための基底評価
(1) ノットセグメントインデックスI(θ,p)を決定する。
Figure 2023532969000031
ここで、θは、評価されるべき仰角であり、I(0)は、最初のノットポイントにおける仰角であり、Iは、仰角Bスプライン関数のためのノットポイント間隔である。
(2) 最も近いセグメントサンプルポイントを決定する。
Figure 2023532969000032
ここで、round()は丸め関数であり、Nは、セグメントごとのサンプルの数である(たとえば、
Figure 2023532969000033
)。丸め関数は、周期的Bスプライン基底関数のために使用されたのと同じものであり得る。
(3) 非0基底関数の数
Figure 2023532969000034
を決定する
Figure 2023532969000035
最初および最後のノットポイントにおいて、
Figure 2023532969000036
も利用され得る。
Bスプラインサンプル値および形状インデックスを計算する
Figure 2023532969000037
ここで、Iは、仰角pにおける関連するサンプリングされた形状関数
Figure 2023532969000038
を表現するインデックスである。
Pは、仰角Bスプライン基底関数の総数である。基底関数インデックス(i+I)がP-4よりも大きい場合、形状は後方に読み取られる。そうではなく、対称的形状の場合に起こり得る、形状インデックスが記憶された形状の長さよりも大きい場合、形状はまた、後方に読み取られる。記憶された形状値
Figure 2023532969000039
のインデックス
Figure 2023532969000040
も、記憶される。len(・)は、入力ベクトルの長さを決定し、min(・,・)、max(・,・)は、それぞれ、入力引数の最小値および最大値を決定する。
4.3 HRフィルタ評価
方位角Bスプライン基底関数および仰角Bスプライン基底関数が評価されると、F(θ,φ)が、以下によって決定され得る。
Figure 2023532969000041
次いで、各HRフィルタ係数
Figure 2023532969000042
が、次のように決定され得る。
Figure 2023532969000043
ただし、HRフィルタタップインデックスk=0,...,K-1。
5. バイノーラルレンダリング
いくつかの実施形態では、上記で説明された方法は、HRフィルタのゼロ時間遅延部分のために使用され得、すなわち、各フィルタのオンセット時間遅延、または両耳間時間差による左HRフィルタと右HRフィルタとの間の遅延差を除外する。上記で説明された方法は、等価な様式で、(たとえば、WO2021/074294において説明されるように)Bスプライン基底関数によって同様の様式でモデル化されている両耳間時間差を評価するために、利用され得る。そのような場合、単一のITDが決定され、すなわち、フィルタタップの数がK≫1であるHRフィルタに反して、K=1である。次いで、得られた両耳間時間差は、生成されたHRフィルタ(
Figure 2023532969000044
)の修正によって、あるいはフィルタ処理ステップ中にオフセットを適用することによって時間差を考慮に入れることによってのいずれかで、考慮に入れられ得る。
別個の重み行列
Figure 2023532969000045
を使用するが、同一の基底関数、すなわち同一の
Figure 2023532969000046
を使用して、それぞれ、左側および右側のためにHRフィルタ
Figure 2023532969000047
が生成される。したがって、
Figure 2023532969000048
は、更新された方向(θ,φ)ごとに1回のみ評価される。
次いで、(たとえば、よく知られている技法を使用することによって)それぞれ左HRフィルタおよび右HRフィルタを用いてオーディオソース信号をフィルタ処理することによって、モノソースu(n)のためのバイノーラルオーディオ信号が取得され得る。フィルタ処理は、時間領域において通常の畳み込み技法を使用して、またはより最適化された様式で、たとえば、フィルタが長いとき、離散フーリエ変換(DFT)領域においてオーバーラップ加算技法を用いて、行われ得る。K=96個のタップは、48kHzサンプルレートの場合、2msフィルタに対応する。
本開示の実施形態は、最適化の2つの主要なカテゴリー、あらかじめ計算されたサンプリングされた基底関数と構造化されたHRフィルタ評価と、に基づく。いくつかの実施形態では、サンプリングされた基底関数が、前処理段において、計算され、メモリに記憶される。また、構造化されたHRフィルタ評価は、レンダラ内でランタイムにおいて実行され得るか、またはサンプリングされたHRフィルタのセットとしてあらかじめ計算され、記憶され得る。高精度方位角および仰角分解能を用いてサンプリングされたHRフィルタセットを記憶するために必要とされるメモリは大きいので、いくつかの実施形態では、HRフィルタは、ランタイム中に評価される。
図7は、いくつかの実施形態による、例示的なシステム700を示す。システム700は、プリプロセッサ702とオーディオレンダラ704とを備える。プリプロセッサ702およびオーディオレンダラ704は、同じエンティティ中に、または異なるエンティティ中に含まれ得る。また、プリプロセッサ702中に含まれる異なるモジュール(たとえば、710、712、714、および/または716)は、同じエンティティまたは異なるエンティティ中に含まれ得、オーディオレンダラ704中に含まれる異なるモジュール(718および/または720)は、同じエンティティまたは異なるエンティティ中に含まれ得る。
一例では、プリプロセッサ702は、オーディオエンコーダ、(たとえば、クラウド中の)ネットワークエンティティ、およびオーディオデコーダ(すなわち、オーディオレンダラ704)のいずれかの1つの中に含まれる。オーディオレンダラ704は、オーディオ信号を生成することが可能な任意の電子デバイス(たとえば、デスクトップ、ラップトップコンピュータ、タブレット、モバイルフォン、ヘッドマウントディスプレイ、XRシミュレーションシステムなど)中に含まれ得る。
プリプロセッサ702は、HRフィルタモデル設計モジュール710と、HRフィルタモデル化モジュール712と、基底関数サンプリングモジュール714と、メモリ716とを含む。HRフィルタモデル設計モジュール710は、HRフィルタモデル化モジュール712のほうへ設計データ720を出力するように設定される。HRフィルタモデル化モジュール712は、HRフィルタデータ722を受信し、受信された設計データ720および受信されたHRフィルタデータ722に基づいて、HRフィルタモデルを取得し得る。いくつかの実施形態では、HRフィルタモデルは、上記で説明されたプロパティ(1)および(2)(a)~(2)(d)に従って設計される。
HRフィルタモデルを取得することは、ある基底関数構造を選択すること、すなわち、方位角のための基底関数(「方位角基底関数」)のセットおよび/または仰角のための基底関数(「仰角基底関数」)のセットを選択することを含み得る。方位角基底関数は、モデル化範囲(たとえば、0°から360°の間)にわたって周期的であるように選択され得る。モデル化範囲は、ノットポイントによって画定された、Nseg個の等しいサイズのセグメントに分割され得る。基底関数は、少なくとも1つの基底関数が1つまたは複数のセグメントにおいて0値であるように選択され得る。また、基底関数は、多くともN<{P,Q}個の基底関数が、セグメントi内で非0である(すなわち、多くとも(Pよりも小さい)
Figure 2023532969000049
個の仰角基底関数が非0であり、および/または多くとも(Qよりも小さい)
Figure 2023532969000050
個の方位角基底関数が非0である)ように選択され得、ここで、Pは、仰角基底関数の総数であり、Qは、仰角pのための方位角基底関数の総数である。さらに、基底関数(方位角基底関数および/または仰角基底関数)は、本開示で説明される最適化技法を利用するために、いくつかの基底関数の非0部分が、他の基底関数の非0部分の対称的、ミラー、または、サブサンプリングされたバージョンであるように選択され得る。
HRフィルタモデルを取得した後に、HRフィルタモデル化モジュール712は、基底関数サンプリングモジュール714にHRフィルタモデルデータ724を出力する。HRフィルタモデルデータ724は、取得されたHRフィルタモデル(すなわち、選択された基底関数構造)を示し得る。受信されたHRフィルタモデルデータ724に基づいて、基底関数サンプリングモジュール714は、間隔ΔΦ(方位角基底関数の場合)およびΔΘ(仰角基底関数の場合)において基底関数をサンプリングし、方位角基底関数および/または仰角基底関数の(非0部分の)コンパクトな表現を取得し得る。基底関数を表現するために基底関数のすべての部分が必要とされるとは限らないので、基底関数のコンパクトな表現が取得され得る。たとえば、基底関数の対称的な非0部分の場合、形状を表現するために基底関数の形状の1/2のみが必要とされる。基底関数のミラーまたは反転された非0部分の場合、基底関数の形状を表現するためにミラー部分のうちの1つのみが必要とされる。基底関数のサブサンプリングされた非0部分の場合、基底関数の形状を表現するために最も大きい形状のみが必要とされる。
基底関数のコンパクトな表現を取得した後、基底関数サンプリングモジュール714は、基底関数形状データ728と形状メタデータ730とをメモリ716に記憶し得る。基底関数形状データ728は、基底関数のコンパクトな表現の形状を示し得る。形状メタデータ730は、HRフィルタモデル基底関数に関してコンパクトな表現の構造に関する情報を含み得る。たとえば、形状メタデータ730は、モデル基底関数に関して形状、配向(orientation)(たとえば、反転されるか否か)、およびサブサンプリングファクタMに関する情報を含み得る。形状メタデータ730に関する詳細な情報が、上記で本開示のセクション3.3において提供された。
基底関数形状データ728および形状メタデータ730に加えて、メモリ716は、追加のHRフィルタモデルパラメータ726(たとえば、αパラメータ)をも記憶し得る。
オーディオレンダラ704は、構造化HRフィルタ生成器718とバイノーラルレンダラ720とを含む。構造化HRフィルタ生成器718は、メモリ716から基底関数形状データ732と形状メタデータ734と(1つまたは複数の)追加のHRフィルタモデルパラメータ736とを読み取り、レンダリングメタデータ738を受信する。基底関数形状データ732は、基底関数形状データ728と同じであるかまたはそれに関係し得る。同様に、形状メタデータ734および(1つまたは複数の)モデルパラメータ736は、それぞれ、形状メタデータ730および(1つまたは複数の)モデルパラメータ726と同じであるかまたはそれに関係し得る。
構造化HRフィルタ生成器718は、(i)基底関数形状データ732、(ii)形状メタデータ734、(iii)(1つまたは複数の)追加のHRフィルタモデルパラメータ736、および(iv)レンダリングメタデータ738に基づいて、HRフィルタを示すHRフィルタ情報740を生成し得る。レンダリングメタデータ738は、評価されるべき方向(θ,φ)を規定し得る。
図8は、いくつかの実施形態による、例示的なプロセス800を示す。プロセス800は、オーディオレンダラ704中に含まれる構造化HRフィルタ生成器718によって実施され得る。
プロセス800は、ステップs802から始まり得る。ステップs802において、構造化HRフィルタ生成器718は、受信されたレンダリングメタデータ738に基づいて、モデル化範囲中のセグメントを識別する。たとえば、レンダリングメタデータ738は、評価されるべき特定の方向(θ,φ)を規定し、生成器718は、規定された方向が属するセグメントを識別する。
ステップs802を実施した後に、ステップs804において、構造化HRフィルタ生成器718は、ステップs802において識別されたセグメント内のサンプルポイントを識別する。
ステップs804を実施した後に、ステップs806において、生成器718は、基底関数形状データ732に基づいて、基底関数(すなわち、方位角基底関数および仰角基底関数)のコンパクトな表現を識別する。
ステップs806を実施した後に、ステップs808において、生成器718は、形状メタデータ734に基づいて、識別されたコンパクトな表現が、通常通り読み取られるべきなのか、反転されるべきなのか、サブサンプリングファクタMに従ってサブサンプリングされるべきなのかを決定し、必要な場合、反転および/またはサブサンプリングを実施する。
ステップs808を実施した後に、ステップs810において、生成器718は、多くともN個の基底関数を評価する。そのような評価は、識別されたセグメントのための多くともN個の非0基底関数のコンパクトな表現の各々内のサンプル値を取得することを含む。基底関数がどのように評価されるかに関する詳細な説明が、上記のセクション4.1および4.2において提供された。
ステップs810を実施した後に、ステップs812において、(i)取得された方位角基底関数値、(ii)取得された仰角基底関数値、および(iii)(1つまたは複数の)追加のモデルパラメータ736(たとえば、パラメータα)に基づいて、構造化HRフィルタ生成器718は、HRフィルタを生成する。HRフィルタは、別々に、各フィルタタップkのために対応するモデル重みパラメータ(α)によって重み付けされた方位角基底関数値と仰角基底関数値との乗算された値の和として生成され得る。HRフィルタがどのように生成されるかに関する詳細な説明が、上記でセクション4.3において提供された。
構造化HRフィルタ生成器718によって生成された(左側および右側のための)HRフィルタは、その後、バイノーラルレンダラ720に提供される。
生成器718によって生成されたHRフィルタを使用して、バイノーラルレンダラ720は、オーディオ信号742をバイノーラル化する(binauralize)、すなわち(左側および右側のための)2つのオーディオ出力信号を生成する。
図9は、XRシーンのための音を作り出すための例示的なシステム900を示す。システム900は、コントローラ901と、第1のオーディオストリーム951のための信号修正器902と、第2のオーディオストリーム952のための信号修正器903と、第1のオーディオストリーム951のためのスピーカー904と、第2のオーディオストリーム952のためのスピーカー905とを含む。2つのオーディオストリームと、2つの修正器と、2つのスピーカーとが図9に示されているが、これは、単に説明の目的であり、いかなる形でも本開示の実施形態を限定しない。たとえば、いくつかの実施形態では、レンダリングされるべきN個のオーディオオブジェクトに対応するN個のオーディオストリームがあり得、そのオーディオストリームは、単一のオーディオオブジェクトに対応する単一のモノ信号を含む。さらに、図9は、システム900が、第1のオーディオストリーム951と第2のオーディオストリーム952とを別々に受信および修正することを示すが、システム900は、複数のオーディオストリームを表現する単一のオーディオストリームを受信し得る。第1のオーディオストリーム951と第2のオーディオストリーム952とは、同じであるかまたは異なり得る。第1のオーディオストリーム951と第2のオーディオストリーム952とが同じである場合、単一のオーディオストリームが、単一のオーディオストリームと同等である2つのオーディオストリームにスプリットされ、それにより、第1のオーディオストリーム951と第2のオーディオストリーム952とを生成し得る。
コントローラ901は、1つまたは複数のパラメータを受信し、受信されたパラメータに基づいて第1のオーディオストリーム951および第2のオーディオストリーム952に対する修正を実施する(たとえば、利得関数に従ってボリュームレベルを増加または減少させる)ように修正器902および903をトリガするように設定され得る。受信されたパラメータは、(1)傾聴者の位置に関する情報953(たとえば、オーディオソースへの距離および方向)、および(2)オーディオソースに関するメタデータ954である。情報953は、図7に示されているレンダリングメタデータ738と同じ情報を含み得る。同様に、メタデータ954は、図7に示されている形状メタデータ734と同じ情報を含み得る。
本開示のいくつかの実施形態では、情報953は、図10Aに示されているXRシステム1000中に含まれる1つまたは複数のセンサーから提供され得る。図10Aに示されているように、XRシステム1000は、ユーザによって装着されるように設定される。図10Bに示されているように、XRシステム1000は、配向検知ユニット1001と、位置検知ユニット1002と、システム1000のコントローラ1001に結合された処理ユニット1003とを備え得る。配向検知ユニット1001は、傾聴者の配向の変化を検出し、検出された変化に関する情報を処理ユニット1003に提供するように設定される。いくつかの実施形態では、処理ユニット1003は、配向検知ユニット1001によって検出された配向の検出された変化を前提として、(何らかの座標系に関する)絶対配向を決定する。配向および位置の決定のための異なるシステム、たとえば、lighthouseトラッカー(lidar)を使用するHTC Viveシステムもあり得る。一実施形態では、配向検知ユニット1001は、配向の検出された変化を前提として、(何らかの座標系に関する)絶対配向を決定し得る。この場合、処理ユニット1003は、単に、配向検知ユニット1001からの絶対配向データと位置検知ユニット1002からの絶対位置データとを多重化し得る。いくつかの実施形態では、配向検知ユニット1001は、1つまたは複数の加速度計および/または1つまたは複数のジャイロスコープを備え得る。図10Aおよび図10Bに示されているXRシステム1000のタイプおよび/またはXRシステム1000の構成要素は、単に説明の目的で提供され、いかなる形でも本開示の実施形態を限定しない。たとえば、ユーザの眼を覆うヘッドマウントディスプレイを含むXRシステム1000が示されているが、システムは、たとえば、オーディオのみの実装形態の場合、そのようなディスプレイを装備しないことがある。
図11は、オーディオレンダリングのためにHRフィルタを生成するためのプロセス1100を示すフローチャートである。プロセス1100は、ステップs1102から始まり得る。
ステップs1102は、HRフィルタモデルを示すHRフィルタモデルデータを生成することを含む。HRフィルタモデルデータを生成することは、1つまたは複数の基底関数の少なくとも1つのセットを選択することを含み得る。
ステップs1104は、生成されたHRフィルタモデルデータに基づいて、前記1つまたは複数の基底関数をサンプリングすること(s1104)を含む。
ステップs1106は、生成されたHRフィルタモデルデータに基づいて、第1の基底関数形状データと形状メタデータとを生成することを含む。第1の基底関数形状データは、前記1つまたは複数の基底関数の1つまたは複数のコンパクトな表現を識別し、形状メタデータは、前記1つまたは複数の基底関数に関する前記1つまたは複数のコンパクトな表現の構造に関する情報を含む。
ステップs1108は、1つまたは複数の記憶媒体に記憶するために、生成された第1の基底関数形状データと形状メタデータとを提供することを含む。
ステップs1110は、トリガリングイベントの発生を検出することを含む。
ステップs1112は、トリガリングイベントの発生を検出したことの結果として、オーディオレンダリングのために第2の基底関数形状データと形状メタデータとを出力することを含む。
そのようなトリガリングイベントは、オーディオレンダリングのために頭部関係(HR)フィルタが生成されるべきであることを示し得、これは、たとえば、オーディオのフレームをレンダリングするために、または後で使用するためにメモリに記憶される頭部関係(HR)フィルタの生成によってレンダリングを準備するために、頭部関係(HR)フィルタが要求されるとき、オーディオレンダラから誘起され得る。いくつかの実施形態では、トリガリングイベントは、1つまたは複数の記憶媒体から基底関数形状データおよび/または形状メタデータを取り出すという判断にすぎない。
いくつかの実施形態では、1つまたは複数の基底関数の前記少なくとも1つのセットは、以下の条件、
(i) 1つまたは複数の基底関数の前記少なくとも1つのセットが、モデル化範囲にわたって周期的である、
(ii) 前記少なくとも1つのセット中に含まれる少なくとも1つの基底関数が、モデル化範囲中に含まれる1つまたは複数のセグメントにおいて0値である、
(iii) 前記少なくとも1つのセット中に含まれる多くともN個の基底関数が、モデル化範囲中に含まれるセグメントにおいて非0であり、Nが、正の整数であり、前記少なくとも1つのセット中に含まれる基底関数の総数よりも小さい、および
(iv) 前記1つまたは複数の基底関数の少なくとも1つの非0部分が、(1)前記1つまたは複数の基底関数の別の非0部分に対して対称的またはミラー、あるいは(2)前記1つまたは複数の基底関数の別の非0部分のサブサンプリングされたバージョンのいずれか1つまたは組合せである
のいずれか1つまたは組合せが満たされるように選択される。
いくつかの実施形態では、前記1つまたは複数の基底関数のコンパクトな表現は、前記1つまたは複数の基底関数の非0部分の形状を示し、前記1つまたは複数の基底関数の前記非0部分の形状は、前記1つまたは複数の基底関数の別の非0部分の形状に対して対称的またはミラーである。
いくつかの実施形態では、形状メタデータは、以下の情報、
(i) 基底関数の数と、
(ii) 各基底関数の開始ポイントと、
(iii) オーディオレンダリングのために使用すべき特定の形状を各々識別する、1つまたは複数の形状インデックスと、
(iv) 1つまたは複数の基底関数のための形状リサンプリングファクタと、
(v) 1つまたは複数の基底関数のための反転インジケータであって、反転インジケータが、前記1つまたは複数の記憶媒体に記憶された前記1つまたは複数の基底関数の前記1つまたは複数のコンパクトな表現の反転されたバージョンを取得すべきかどうかを示す、1つまたは複数の基底関数のための反転インジケータと、
(vi) 基底関数構造と、
(vii) 各基底関数の非0部分の幅と
のいずれか1つまたは組合せを備える。
いくつかの実施形態では、方法は、前記1つまたは複数の記憶媒体に記憶するために追加のHRフィルタモデルパラメータを提供することをさらに含む。
いくつかの実施形態では、方法は、オーディオレンダリングをトリガするイベントの発生より前にプリプロセッサによって実施される。
いくつかの実施形態では、方法は、オーディオレンダラとは別個で個別のネットワークエンティティ中に含まれるプリプロセッサによって実施される。
いくつかの実施形態では、第2の基底関数形状データと形状メタデータとは、HRフィルタを生成するために使用される。
いくつかの実施形態では、第1の基底関数形状データと第2の基底関数形状データとは同じである。
いくつかの実施形態では、第2の基底関数形状データは、前記1つまたは複数の基底関数の前記1つまたは複数のコンパクトな表現のコンバートされたバージョンを識別し、前記1つまたは複数の基底関数の前記1つまたは複数のコンパクトな表現のコンバートされたバージョンは、前記1つまたは複数の基底関数の前記1つまたは複数のコンパクトな表現の対称的またはミラーバージョンおよび/あるいはサブサンプリングされたバージョンである。
図12は、オーディオレンダリングのためにHRフィルタを生成するためのプロセス1200を示すフローチャートである。プロセス1200は、ステップs1202から始まり得る。
ステップs1202は、1つまたは複数の基底関数の1つまたは複数のコンパクトな表現のコンバートされたバージョンを取得すべきかどうかを示す形状メタデータを取得することを含む。
ステップs1204は、(i)前記1つまたは複数の基底関数の前記1つまたは複数のコンパクトな表現または(ii)前記1つまたは複数の基底関数の前記1つまたは複数のコンパクトな表現のコンバートされたバージョンを識別する、基底関数形状データを取得することを含む。
ステップs1206は、取得された形状メタデータと取得された基底関数形状データとに基づいて、(i)前記1つまたは複数の基底関数の前記1つまたは複数のコンパクトな表現または(ii)前記1つまたは複数の基底関数の前記1つまたは複数のコンパクトな表現のコンバートされたバージョンを使用することによって、HRフィルタを生成することを含む。
いくつかの実施形態では、方法は、前記1つまたは複数の基底関数の前記1つまたは複数のコンパクトな表現のコンバートされたバージョンをどのように取得すべきかを示す形状メタデータを取得した後に、記憶媒体から前記1つまたは複数の基底関数の前記1つまたは複数のコンパクトな表現に対応するデータを取得することをさらに含む。データは、前記1つまたは複数の基底関数の前記1つまたは複数のコンパクトな表現のコンバートされたバージョンが取得されるようにあらかじめ規定された様式で取得される。
いくつかの実施形態では、方法は、前記1つまたは複数の基底関数の前記1つまたは複数のコンパクトな表現を識別するデータを受信することと、別の記憶媒体に記憶するために、受信されたデータを提供することとを含む。前記1つまたは複数の基底関数の前記1つまたは複数のコンパクトな表現のコンバートされたバージョンを識別する基底関数形状データを取得することは、前記別の記憶媒体からあらかじめ規定された様式で、記憶された受信されたデータを読み取ることを含む。
いくつかの実施形態では、前記1つまたは複数の基底関数の前記1つまたは複数のコンパクトな表現のコンバートされたバージョンは、前記1つまたは複数の基底関数の前記1つまたは複数のコンパクトな表現の対称的またはミラーバージョンおよび/あるいはサブサンプリングされたバージョンである。
いくつかの実施形態では、あらかじめ規定された様式でデータを取得することは、(i)あらかじめ規定されたシーケンスでデータを取得すること、および/または(ii)部分的にデータを取得することを含む。
いくつかの実施形態では、前記1つまたは複数の基底関数のコンパクトな表現のコンバートされたバージョンは、前記1つまたは複数の基底関数のコンパクトな表現の対称的またはミラーバージョンおよび/あるいはサブサンプリングされたバージョンである。
いくつかの実施形態では、方法は、評価されるべき特定の方向またはロケーションを示すレンダリングメタデータを取得することと、取得されたレンダリングメタデータに基づいて、評価されるべき特定の方向またはロケーションに関係するサンプルポイントを識別することとをさらに含む。
いくつかの実施形態では、前記1つまたは複数の基底関数の前記1つまたは複数のコンパクトな表現は、前記1つまたは複数の基底関数の非0部分の形状を示し、前記1つまたは複数の基底関数の前記非0部分の形状は、前記1つまたは複数の基底関数の別の非0部分の形状に対して対称的またはミラーである。
いくつかの実施形態では、前記形状メタデータは、以下の情報、(i)基底関数の数と、(ii)各基底関数の開始ポイントと、(iii)HRフィルタ生成のために使用すべき特定の形状を各々識別する、1つまたは複数の形状インデックスと、(iv)1つまたは複数の基底関数のための形状リサンプリングファクタと、(v)1つまたは複数の基底関数のための反転インジケータであって、反転インジケータが、記憶媒体に記憶された前記1つまたは複数の基底関数の前記1つまたは複数のコンパクトな表現の反転されたバージョンを取得すべきかどうかを示す、1つまたは複数の基底関数のための反転インジケータと、(vi)基底関数構造と、(vii)各基底関数の非0部分の幅とのいずれか1つまたは組合せを備える。
いくつかの実施形態では、方法は、オーディオ信号を取得することと、生成されたHRフィルタを使用して、左側のための左オーディオ信号と右側のための右オーディオ信号とを生成するために、取得されたオーディオ信号をフィルタ処理することとをさらに含む。左オーディオ信号と右オーディオ信号とは、レンダリングメタデータによって示された特定の方向および/またはロケーションに関連付けられる。
図13は、図7に示されているプリプロセッサ702またはオーディオレンダラ704を実装するための、いくつかの実施形態による、装置1300のブロック図である。図13に示されているように、装置1300は、1つまたは複数のプロセッサ(P)1355(たとえば、汎用マイクロプロセッサ、および/または、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)など、1つまたは複数の他のプロセッサなど)を含み得る処理回路(PC)1302であって、そのプロセッサが、単一のハウジングにおいてまたは単一のデータセンタにおいて共同サイト式であり得るかあるいは地理的に分散され得る(すなわち、装置1300が分散コンピューティング装置であり得る)、処理回路(PC)1302と、少なくとも1つのネットワークインターフェース1348であって、各ネットワークインターフェース1348は、装置1300が、ネットワークインターフェース1348が(直接または間接的に)接続されるネットワーク110(たとえば、インターネットプロトコル(IP)ネットワーク)に接続された他のノードにデータを送信し、他のノードからデータを受信することを可能にするための送信機(Tx)1345および受信機(Rx)1347を備える(たとえば、ネットワークインターフェース1348はネットワーク110に無線で接続され得、その場合、ネットワークインターフェース1348はアンテナ構成に接続される)、少なくとも1つのネットワークインターフェース1348と、1つまたは複数の不揮発性記憶デバイスおよび/または1つまたは複数の揮発性記憶デバイスを含み得る1つまたは複数の記憶ユニット(別名「データ記憶システム」)1308とを備え得る。PC1302がプログラマブルプロセッサを含む実施形態では、コンピュータプログラム製品(CPP)1341が提供され得る。CPP1341はコンピュータ可読媒体(CRM)1342を含み、CRM1342は、コンピュータ可読命令(CRI)1344を備えるコンピュータプログラム(CP)1343を記憶する。CRM1342は、磁気媒体(たとえば、ハードディスク)、光媒体、メモリデバイス(たとえば、ランダムアクセスメモリ、フラッシュメモリ)など、非一時的コンピュータ可読媒体であり得る。いくつかの実施形態では、コンピュータプログラム1343のCRI1344は、PC1302によって実行されたとき、CRIが、装置1300に、本明細書で説明されるステップ(たとえば、フローチャートを参照しながら本明細書で説明されるステップ)を実施させるように設定される。他の実施形態では、装置1300は、コードの必要なしに本明細書で説明されるステップを実施するように設定され得る。すなわち、たとえば、PC1302は、単に1つまたは複数のASICからなり得る。したがって、本明細書で説明される実施形態の特徴は、ハードウェアおよび/またはソフトウェアで実装され得る。
様々な実施形態が本明細書で説明されたが、それらの実施形態は、限定ではなく、例として提示されたにすぎないことを理解されたい。したがって、本開示の広さおよび範囲は、上記で説明された例示的な実施形態のいずれによっても限定されるべきでない。その上、本明細書で別段に示されていない限り、またはコンテキストによって明確に否定されていない限り、上記で説明されたエレメントのそれらのすべての考えられる変形形態における任意の組合せが、本開示によって包含される。
さらに、上記で説明され、図面に示されたプロセスおよびメッセージフローは、ステップのシーケンスとして示されたが、これは、説明のためにのみ行われた。したがって、いくつかのステップが追加され得、いくつかのステップが省略され得、ステップの順序が並べ替えられ得、いくつかのステップが並行して実施され得ることが企図される。
6.略語
Figure 2023532969000051

Claims (30)

  1. オーディオレンダリングのために頭部関係(HR)フィルタを生成するための方法(1100)であって、前記方法は、
    HRフィルタモデルを示すHRフィルタモデルデータを生成すること(s1102)であって、前記HRフィルタモデルデータを生成することが、1つまたは複数の基底関数の少なくとも1つのセットを選択することを含む、HRフィルタモデルデータを生成すること(s1102)と、
    前記生成されたHRフィルタモデルデータに基づいて、(i)前記1つまたは複数の基底関数をサンプリングすること(s1104)と、(ii)第1の基底関数形状データと形状メタデータとを生成すること(s1106)であって、前記第1の基底関数形状データが、前記1つまたは複数の基底関数の1つまたは複数のコンパクトな表現を識別し、前記形状メタデータが、前記1つまたは複数の基底関数に関する前記1つまたは複数のコンパクトな表現の構造に関する情報を含む、第1の基底関数形状データと形状メタデータとを生成すること(s1106)と、
    1つまたは複数の記憶媒体に記憶するために、前記生成された第1の基底関数形状データと前記形状メタデータとを提供すること(s1108)と
    を含む、方法(1100)。
  2. 前記方法が、
    トリガリングイベントの発生を検出すること(s1110)と、
    前記トリガリングイベントの前記発生を検出したことの結果として、前記オーディオレンダリングのために第2の基底関数形状データと前記形状メタデータとを出力すること(s1112)と
    をさらに含む、請求項1に記載の方法。
  3. 1つまたは複数の基底関数の前記少なくとも1つのセットは、以下の条件、
    (i)1つまたは複数の基底関数の前記少なくとも1つのセットが、モデル化範囲にわたって周期的である、
    (ii)前記少なくとも1つのセット中に含まれる少なくとも1つの基底関数が、前記モデル化範囲中に含まれる1つまたは複数のセグメントにおいて0値である、
    (iii)前記少なくとも1つのセット中に含まれる多くともN個の基底関数が、前記モデル化範囲中に含まれるセグメントにおいて非0であり、Nが、正の整数であり、前記少なくとも1つのセット中に含まれる基底関数の総数よりも小さい、および
    (iv)前記1つまたは複数の基底関数の少なくとも1つの非0部分が、(1)前記1つまたは複数の基底関数の別の非0部分に対して対称的またはミラー、あるいは(2)前記1つまたは複数の基底関数の別の非0部分のサブサンプリングされたバージョンのいずれか1つまたは組合せである
    のいずれか1つまたは組合せが満たされるように選択される、請求項1または2に記載の方法。
  4. 前記1つまたは複数の基底関数の前記コンパクトな表現が、前記1つまたは複数の基底関数の非0部分の形状を示し、
    前記1つまたは複数の基底関数の前記非0部分の前記形状が、前記1つまたは複数の基底関数の別の非0部分の形状に対して対称的またはミラーである、
    請求項1から3のいずれか一項に記載の方法。
  5. 前記形状メタデータは、以下の情報、
    (i)基底関数の数と、
    (ii)各基底関数の開始ポイントと、
    (iii)オーディオレンダリングのために使用すべき特定の形状を各々識別する、1つまたは複数の形状インデックスと、
    (iv)1つまたは複数の基底関数のための形状リサンプリングファクタと、
    (v)1つまたは複数の基底関数のための反転インジケータであって、前記反転インジケータが、前記1つまたは複数の記憶媒体に記憶された前記1つまたは複数の基底関数の前記1つまたは複数のコンパクトな表現の反転されたバージョンを取得すべきかどうかを示す、1つまたは複数の基底関数のための反転インジケータと、
    (vi)基底関数構造と、
    (vii)各基底関数の非0部分の幅と
    のいずれか1つまたは組合せを備える、請求項1から4のいずれか一項に記載の方法。
  6. 前記1つまたは複数の記憶媒体に記憶するために追加のHRフィルタモデルパラメータを提供すること
    をさらに含む、請求項1から5のいずれか一項に記載の方法。
  7. 前記方法が、前記オーディオレンダリングをトリガするイベントの発生より前にプリプロセッサによって実施される、請求項1から6のいずれか一項に記載の方法。
  8. 前記方法が、オーディオレンダラとは別個で個別のネットワークエンティティ中に含まれるプリプロセッサによって実施される、請求項1から7のいずれか一項に記載の方法。
  9. 前記第2の基底関数形状データと前記形状メタデータとが、前記HRフィルタを生成するために使用される、請求項1から8のいずれか一項に記載の方法。
  10. 前記第1の基底関数形状データと前記第2の基底関数形状データとが同じである、請求項1から9のいずれか一項に記載の方法。
  11. 前記第2の基底関数形状データが、前記1つまたは複数の基底関数の前記1つまたは複数のコンパクトな表現のコンバートされたバージョンを識別し、
    前記1つまたは複数の基底関数の前記1つまたは複数のコンパクトな表現の前記コンバートされたバージョンが、前記1つまたは複数の基底関数の前記1つまたは複数のコンパクトな表現の対称的またはミラーバージョンおよび/あるいはサブサンプリングされたバージョンである、
    請求項1から9のいずれか一項に記載の方法。
  12. オーディオレンダリングのために頭部関係(HR)フィルタを生成するための方法(1200)であって、前記方法が、
    1つまたは複数の基底関数の1つまたは複数のコンパクトな表現のコンバートされたバージョンを取得すべきかどうかを示す形状メタデータを取得すること(s1202)と、
    (i)前記1つまたは複数の基底関数の前記1つまたは複数のコンパクトな表現または(ii)前記1つまたは複数の基底関数の前記1つまたは複数のコンパクトな表現の前記コンバートされたバージョンを識別する、基底関数形状データを取得すること(s1204)と、
    前記取得された形状メタデータと前記取得された基底関数形状データとに基づいて、(i)前記1つまたは複数の基底関数の前記1つまたは複数のコンパクトな表現または(ii)前記1つまたは複数の基底関数の前記1つまたは複数のコンパクトな表現の前記コンバートされたバージョンを使用することによって、前記HRフィルタを生成すること(s1206)と
    を含む、方法(1200)。
  13. 前記方法が、
    前記1つまたは複数の基底関数の前記1つまたは複数のコンパクトな表現の前記コンバートされたバージョンをどのように取得すべきかを示す前記形状メタデータを取得した後に、記憶媒体から前記1つまたは複数の基底関数の前記1つまたは複数のコンパクトな表現に対応するデータを取得すること
    をさらに含み、
    前記データが、前記1つまたは複数の基底関数の前記1つまたは複数のコンパクトな表現の前記コンバートされたバージョンが取得されるようにあらかじめ規定された様式で取得される、
    請求項12に記載の方法。
  14. 前記方法が、
    前記1つまたは複数の基底関数の前記1つまたは複数のコンパクトな表現を識別するデータを受信することと、
    記憶媒体に記憶するために、前記受信されたデータを提供することと
    を含み、
    前記1つまたは複数の基底関数の前記1つまたは複数のコンパクトな表現の前記コンバートされたバージョンを識別する基底関数形状データを取得することが、前記記憶媒体からあらかじめ規定された様式で、前記記憶されたデータを読み取ることを含む、
    請求項12に記載の方法。
  15. 前記1つまたは複数の基底関数の前記1つまたは複数のコンパクトな表現の前記コンバートされたバージョンが、前記1つまたは複数の基底関数の前記1つまたは複数のコンパクトな表現の対称的またはミラーバージョンおよび/あるいはサブサンプリングされたバージョンである、
    請求項12から14のいずれか一項に記載の方法。
  16. 前記あらかじめ規定された様式で前記データを取得することが、(i)あらかじめ規定されたシーケンスで前記データを取得すること、および/または(ii)部分的に前記データを取得することを含む、請求項13から15のいずれか一項に記載の方法。
  17. 前記方法が、
    評価されるべき特定の方向またはロケーションを示すレンダリングメタデータを取得することと、
    前記取得されたレンダリングメタデータに基づいて、評価されるべき前記特定の方向またはロケーションに関係するサンプルポイントを識別することと
    をさらに含む、請求項12から16のいずれか一項に記載の方法。
  18. 前記1つまたは複数の基底関数の前記1つまたは複数のコンパクトな表現が、前記1つまたは複数の基底関数の非0部分の形状を示し、
    前記1つまたは複数の基底関数の前記非0部分の前記形状が、前記1つまたは複数の基底関数の別の非0部分の形状に対して対称的またはミラーである、
    請求項12から17のいずれか一項に記載の方法。
  19. 前記形状メタデータは、以下の情報、
    (i)基底関数の数と、
    (ii)各基底関数の開始ポイントと、
    (iii)HRフィルタ生成のために使用すべき特定の形状を各々識別する、1つまたは複数の形状インデックスと、
    (iv)1つまたは複数の基底関数のための形状リサンプリングファクタと、
    (v)1つまたは複数の基底関数のための反転インジケータであって、前記反転インジケータが、前記記憶媒体に記憶された前記1つまたは複数の基底関数の前記1つまたは複数のコンパクトな表現の反転されたバージョンを取得すべきかどうかを示す、1つまたは複数の基底関数のための反転インジケータと、
    (vi)基底関数構造と、
    (vii)各基底関数の非0部分の幅と
    のいずれか1つまたは組合せを備える、請求項12から18のいずれか一項に記載の方法。
  20. 前記方法が、
    オーディオ信号を取得することと、
    前記生成されたHRフィルタを使用して、左側のための左オーディオ信号と右側のための右オーディオ信号とを生成するために、前記取得されたオーディオ信号をフィルタ処理することと
    をさらに含み、
    前記左オーディオ信号と前記右オーディオ信号とが、前記レンダリングメタデータによって示された前記特定の方向および/またはロケーションに関連付けられる、
    請求項12から19のいずれか一項に記載の方法。
  21. 処理回路(1302)によって実行されたとき、前記処理回路に、請求項1から20のいずれか一項に記載の方法を実施させる命令を備える、コンピュータプログラム(1343)。
  22. 請求項21に記載のコンピュータプログラムを含んでいるキャリアであって、前記キャリアが、電子信号、光信号、無線信号、またはコンピュータ可読記憶媒体(1342)のうちの1つである、キャリア。
  23. オーディオレンダリングのために頭部関係(HR)フィルタを生成するための装置(1300)であって、前記装置は、
    HRフィルタモデルを示すHRフィルタモデルデータを生成すること(s1102)であって、前記HRフィルタモデルデータを生成することが、1つまたは複数の基底関数の少なくとも1つのセットを選択することを含む、HRフィルタモデルデータを生成すること(s1102)と、
    前記生成されたHRフィルタモデルデータに基づいて、(i)前記1つまたは複数の基底関数をサンプリングすること(s1104)と、(ii)第1の基底関数形状データと形状メタデータとを生成すること(s1106)であって、前記第1の基底関数形状データが、前記1つまたは複数の基底関数の1つまたは複数のコンパクトな表現を識別し、前記形状メタデータが、前記1つまたは複数の基底関数に関する前記1つまたは複数のコンパクトな表現の構造に関する情報を含む、第1の基底関数形状データと形状メタデータとを生成すること(s1106)と、
    1つまたは複数の記憶媒体中に記憶するために、前記生成された第1の基底関数形状データと前記形状メタデータとを提供すること(s1108)と
    を行うように設定された、装置(1300)。
  24. 前記装置が、請求項2から11のいずれか一項に記載の方法を実施するようにさらに設定された、請求項23に記載の装置。
  25. オーディオレンダリングのために頭部関係(HR)フィルタを生成するための装置(1300)であって、前記装置が、
    1つまたは複数の基底関数の1つまたは複数のコンパクトな表現のコンバートされたバージョンを取得すべきかどうかを示す形状メタデータを取得すること(s1202)と、
    (i)前記1つまたは複数の基底関数の前記1つまたは複数のコンパクトな表現または(ii)前記1つまたは複数の基底関数の前記1つまたは複数のコンパクトな表現の前記コンバートされたバージョンを識別する、基底関数形状データを取得すること(s1204)と、
    前記取得された形状メタデータと前記取得された基底関数形状データとに基づいて、(i)前記1つまたは複数の基底関数の前記1つまたは複数のコンパクトな表現または(ii)前記1つまたは複数の基底関数の前記1つまたは複数のコンパクトな表現の前記コンバートされたバージョンを使用することによって、前記HRフィルタを生成すること(s1206)と
    を行うように設定された、装置(1300)。
  26. 前記装置が、請求項13から20のいずれか一項に記載の方法を実施するようにさらに設定された、請求項25に記載の装置。
  27. エクステンデッドリアリティシーンにおいてオーディオオブジェクトを表現するための装置(1300)であって、前記装置が、
    記憶ユニット(1308)と、
    前記記憶ユニットに結合された処理回路(1302)と
    を備え、前記装置が、
    HRフィルタモデルを示すHRフィルタモデルデータを生成すること(s1102)であって、前記HRフィルタモデルデータを生成することが、1つまたは複数の基底関数の少なくとも1つのセットを選択することを含む、HRフィルタモデルデータを生成すること(s1102)と、
    前記生成されたHRフィルタモデルデータに基づいて、(i)前記1つまたは複数の基底関数をサンプリングすること(s1104)と、(ii)第1の基底関数形状データと形状メタデータとを生成すること(s1106)であって、前記第1の基底関数形状データが、前記1つまたは複数の基底関数の1つまたは複数のコンパクトな表現を識別し、前記形状メタデータが、前記1つまたは複数の基底関数に関する前記1つまたは複数のコンパクトな表現の構造に関する情報を含む、第1の基底関数形状データと形状メタデータとを生成すること(s1106)と、
    1つまたは複数の記憶媒体に記憶するために、前記生成された第1の基底関数形状データと前記形状メタデータとを提供すること(s1108)と
    を行うように設定された、装置(1300)。
  28. 前記記憶ユニット(1308)が、請求項2から11のいずれか一項に記載の方法を実施するように前記装置を設定するための命令を記憶するメモリ(1342)を備える、請求項27に記載の装置。
  29. エクステンデッドリアリティシーンにおいてオーディオオブジェクトを表現するための装置(1300)であって、前記装置が、
    記憶ユニット(1308)と、
    前記記憶ユニットに結合された処理回路(1302)と
    を備え、前記装置が、
    1つまたは複数の基底関数の1つまたは複数のコンパクトな表現のコンバートされたバージョンを取得すべきかどうかを示す形状メタデータを取得すること(s1202)と、
    (i)前記1つまたは複数の基底関数の前記1つまたは複数のコンパクトな表現または(ii)前記1つまたは複数の基底関数の前記1つまたは複数のコンパクトな表現の前記コンバートされたバージョンを識別する、基底関数形状データを取得すること(s1204)と、
    前記取得された形状メタデータと前記取得された基底関数形状データとに基づいて、(i)前記1つまたは複数の基底関数の前記1つまたは複数のコンパクトな表現または(ii)前記1つまたは複数の基底関数の前記1つまたは複数のコンパクトな表現の前記コンバートされたバージョンを使用することによって、HRフィルタを生成すること(s1206)と
    を行うように設定された、装置(1300)。
  30. 前記記憶ユニット(1308)が、請求項13から20のいずれか一項に記載の方法を実施するように前記装置を設定するための命令を記憶するメモリ(1342)を備える、請求項29に記載の装置。
JP2023500082A 2020-07-07 2021-07-07 効率的な頭部関係フィルタ生成 Pending JP2023532969A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063048863P 2020-07-07 2020-07-07
US63/048,863 2020-07-07
PCT/EP2021/068729 WO2022008549A1 (en) 2020-07-07 2021-07-07 Efficient head-related filter generation

Publications (1)

Publication Number Publication Date
JP2023532969A true JP2023532969A (ja) 2023-08-01

Family

ID=76942996

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023500082A Pending JP2023532969A (ja) 2020-07-07 2021-07-07 効率的な頭部関係フィルタ生成

Country Status (5)

Country Link
US (1) US20230336938A1 (ja)
EP (1) EP4179737A1 (ja)
JP (1) JP2023532969A (ja)
CN (2) CN117915258A (ja)
WO (1) WO2022008549A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024126299A1 (en) 2022-12-14 2024-06-20 Telefonaktiebolaget Lm Ericsson (Publ) Generating a head-related filter model based on weighted training data

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105786764A (zh) * 2014-12-19 2016-07-20 天津安腾冷拔钢管有限公司 一种获取个性化头相关传递函数(hrtf)的计算方法及装置
US20230336936A1 (en) 2019-10-16 2023-10-19 Telefonaktiebolaget LM Erissson (publ) Modeling of the head-related impulse responses

Also Published As

Publication number Publication date
CN115868179A (zh) 2023-03-28
EP4179737A1 (en) 2023-05-17
CN117915258A (zh) 2024-04-19
WO2022008549A1 (en) 2022-01-13
US20230336938A1 (en) 2023-10-19

Similar Documents

Publication Publication Date Title
Ajdler et al. The plenacoustic function and its sampling
US20140355794A1 (en) Binaural rendering of spherical harmonic coefficients
Zhong et al. Head-related transfer functions and virtual auditory display
US20090041254A1 (en) Spatial audio simulation
Richter et al. On the influence of continuous subject rotation during high-resolution head-related transfer function measurements
US20210358507A1 (en) Data sequence generation
JP2005080124A (ja) リアルタイム音響再現システム
Barumerli et al. Round Robin Comparison of Inter-Laboratory HRTF Measurements–Assessment with an auditory model for elevation
Keyrouz et al. Binaural source localization and spatial audio reproduction for telepresence applications
JP2023532969A (ja) 効率的な頭部関係フィルタ生成
Ajdler et al. The plenacoustic function, sampling and reconstruction
Southern et al. Rendering walk-through auralisations using wave-based acoustical models
US20230254661A1 (en) Head-related (hr) filters
Koyama Boundary integral approach to sound field transform and reproduction
Zaar Phase unwrapping for spherical interpolation of headrelated transfer functions
Urbanietz et al. Direct spatial-fourier regression of HRIRs from multi-elevation continuous-azimuth recordings
Skarha Performance Tradeoffs in HRTF Interpolation Algorithms for Object-Based Binaural Audio
Ajdler The plenacoustic function and its applications
Filipanits Design and implementation of an auralization system with a spectrum-based temporal processing optimization
Geldert Impulse Response Interpolation via Optimal Transport
WO2023036795A1 (en) Efficient modeling of filters
Hu et al. HRTF spatial upsampling in the spherical harmonics domain employing a generative adversarial network
Spagnol Individual Three-dimensional Spatial Auditory Displays for Immersive Virtual Environments
RU2722391C2 (ru) Система и способ слежения за движением головы для получения параметрического бинаурального выходного сигнала
JP2023122230A (ja) 音響信号処理装置、および、プログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230323

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230323

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240326

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240624