JP2023515968A - 空間メタデータ補間によるオーディオレンダリング - Google Patents

空間メタデータ補間によるオーディオレンダリング Download PDF

Info

Publication number
JP2023515968A
JP2023515968A JP2022551399A JP2022551399A JP2023515968A JP 2023515968 A JP2023515968 A JP 2023515968A JP 2022551399 A JP2022551399 A JP 2022551399A JP 2022551399 A JP2022551399 A JP 2022551399A JP 2023515968 A JP2023515968 A JP 2023515968A
Authority
JP
Japan
Prior art keywords
audio signal
signal sets
audio
parameter value
listener
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022551399A
Other languages
English (en)
Inventor
ビルカモ ユハ
ライティネン ミッコ-ビッレ
ポリティス アルコンティス
Original Assignee
ノキア テクノロジーズ オサケユイチア
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ノキア テクノロジーズ オサケユイチア filed Critical ノキア テクノロジーズ オサケユイチア
Publication of JP2023515968A publication Critical patent/JP2023515968A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/15Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Stereophonic System (AREA)

Abstract

2つ以上のオーディオ信号セットを取得し(500)、各オーディオ信号セットは位置に関連付けられ(505)、オーディオ信号セットの少なくとも2つについて、少なくとも1つのパラメータ値を取得し(501)、オーディオ信号セットの少なくとも2つに少なくとも関連付けられた位置を取得し(502)、リスナー位置を取得し(504)、オーディオ信号セット(502)の少なくとも2つに少なくとも関連付けられた位置(505、510)及びリスナー位置(504)に基づいて、2つ以上のオーディオ信号セットの少なくとも2つからの少なくとも1つのオーディオ信号に基づいて、少なくとも1つのオーディオ信号(512)を生成し(503)、オーディオ信号セットの少なくとも2つについて、取得された少なくとも1つのパラメータ値、オーディオ信号セット(502)の少なくとも2つに関連付けられた位置、およびリスナー位置(504)に基づいて、少なくとも1つの修正されたパラメータ値(514)を生成し(507)、少なくとも1つの修正されたパラメータ値(514)に基づいて、少なくとも1つのオーディオ信号(512)を処理(509)して、空間オーディオ出力を生成する(518)、ように構成された手段を含む装置。

Description

本願発明は、空間メタデータ補間を用いたオーディオレンダリングのための装置および方法に関するものであるが、6自由度システムのための空間メタデータ補間を用いたオーディオレンダリングに限定されるものではない。
空間オーディオキャプチャアプローチは、オーディオ環境が効果的な方法でリスナーに知覚的に再現され、さらにリスナーが再現されたオーディオ環境内で移動および/または回転することができるように、オーディオ環境をキャプチャしようとするものである。例えば、あるシステム(3自由度、3DoF)では、リスナーは頭を回転させることができ、レンダリングされたオーディオ信号はこの回転運動を反映する。一部のシステム(3自由度プラス、3DoF+)では、リスナーは頭を回転させると同時に環境内でわずかに「動く」ことができ、他のシステム(6自由度、6DoF)では、リスナーは環境内で自由に動き、頭を回転させることができる。
線形空間オーディオキャプチャとは、キャプチャした音声の特徴に処理を適応させないオーディオキャプチャ方法である。その代わり、キャプチャしたオーディオ信号の所定の線形結合を出力する。
録音空間のある位置で立体オーディオをリニアに録音するためには、ハイエンドのマイクロホンアレイが必要である。その1つが、球状32本マイクロホン「Eigenmike」である。このマイクロホンアレイから高次のアンビソニックス(HOA)信号を取得し、線形レンダリングに使用することができる。HOA信号により、空間オーディオをリニアにレンダリングすることで、異なる方向から到来する音を適度な聴感帯域幅で分離することができる。
線形空間オーディオキャプチャ技術では、マイクロホンアレイに対する要求が問題となる。短波長(高い周波数のオーディオ信号)には小さなマイク間隔が、長波長(低い周波数のオーディオ信号)には大きなアレイサイズが必要であり、1つのマイクロホンアレイで両方の条件を満たすことは困難である。
実用的なキャプチャデバイス(例えば、バーチャルリアリティカメラ、一眼レフカメラ、携帯電話)の多くは、Eigenmikeのようなマイクロホンアレイを備えておらず、線形空間オーディオキャプチャに十分なマイクロホン装置を有していない。また、キャプチャデバイスに線形空間オーディオキャプチャを実装すると、1つの位置に対してのみ空間オーディオが得られることになる。
パラメトリック空間オーディオキャプチャとは、マイクロホンで取り込んだオーディオ信号から知覚に関連するパラメータを推定し、そのパラメータとオーディオ信号に基づいて立体音響を合成するシステムである。解析及び合成は、通常、人間の空間的な聴覚の解像度に近い周波数帯域で行われる。
大多数のコンパクトなマイクロホン装置(例えば、VRカメラ、マルチマイクロホンアレイ、マイクロホン付き携帯電話、マイクロホン付きSLRカメラ)に対して、パラメトリック空間オーディオキャプチャは、知覚的に正確な空間オーディオレンダリングを生じ得るが、線形アプローチは、通常、音の空間面の観点から実行可能な結果をもたらさないことが知られている。Eigenmikeのようなハイエンドのマイクロホンアレイの場合、パラメトリックアプローチはさらに、線形アプローチよりも平均的に質の高い空間的な音の知覚を提供することができる。
第1の態様によれば、2つ以上のオーディオ信号セットを取得し、各オーディオ信号セットは、位置に関連付けられ、オーディオ信号セットの少なくとも2つについて、少なくとも1つのパラメータ値を取得し、オーディオ信号セットの少なくとも2つに関連付けられた位置を取得し、リスナー位置を取得し、オーディオ信号セットの少なくとも2つに少なくとも関連付けられた位置およびリスナー位置に基づいて、2つ以上のオーディオ信号セットの少なくとも1つからの少なくとも1つのオーディオ信号に基づいて、少なくとも1つのオーディオ信号を生成し、オーディオ信号セットの少なくとも2つについて取得された少なくとも1つのパラメータ値、オーディオ信号セットの少なくとも2つに関連付けられた位置、およびリスナー位置に基づいて、少なくとも1つの修正されたパラメータ値を生成し、少なくとも1つの修正されたパラメータ値に基づいて少なくとも1つのオーディオ信号を処理し、空間オーディオ出力を生成する、ように構成された手段を含む装置が提供される。
2つ以上のオーディオ信号セットを取得するように構成された手段は、マイクロホン装置から2つ以上のオーディオ信号セットを取得するように構成され、各マイクロホン装置は、それぞれの位置にあり、1つ以上のマイクロホンを備えてよい。
各オーディオ信号セットは方向と関連付けられ、手段は、2つ以上のオーディオ信号セットの方向を取得するようにさらに構成され、生成された少なくとも1つのオーディオ信号は、2つ以上のオーディオ信号セットに関連付けられた方向にさらに基づき、少なくとも1つの修正されたパラメータ値は、2つ以上のオーディオ信号セットに関連付けられた方向にさらに基づいてよい。
手段は、リスナーの方向を取得するようにさらに構成され、少なくとも1つの修正されたパラメータ値は、リスナーの方向にさらに基づいてよい。
少なくとも1つの修正されたパラメータ値に基づいて、少なくとも1つのオーディオ信号を処理し、空間オーディオ出力を生成するように構成された手段は、リスナーの方向にさらに基づいて、少なくとも1つのオーディオ信号を処理するようにさらに構成されてもよい。
手段は、オーディオ信号セットの少なくとも2つに関連付けられた位置およびリスナー位置に基づいて、制御パラメータを取得するようにさらに構成され、オーディオ信号セットの少なくとも2つに関連付けられた位置およびリスナー位置に基づいて、2つ以上のオーディオ信号セットの少なくとも1つからの少なくとも1つのオーディオ信号に基づいて、少なくとも1つのオーディオ信号を生成するように構成された手段は、制御パラメータに基づいて制御されてよい。
少なくとも1つの修正されたパラメータ値を生成するように構成された手段は、制御パラメータに基づいて制御されてもよい。
制御パラメータを取得するように構成された手段は、リスナー位置が配置されたオーディオ信号セットの少なくとも3つを識別し、オーディオ信号セットの位置およびリスナー位置に基づいて、オーディオ信号セットの少なくとも3つに関連する重みを生成し、あるいは、リスナー位置に最も近いオーディオ信号セットの2つを識別し、オーディオ信号セットの位置およびオーディオ信号セットの2つの間の線からのリスナー位置の垂直投影に基づいて、オーディオ信号セットの2つに関連付けられた重みを生成するように構成されてよい。
少なくとも1つのオーディオ信号を生成するように構成された手段は、重みに基づいて、2つ以上のオーディオ信号セットからの2つ以上のオーディオ信号を結合することと、2つ以上のオーディオ信号セットのうちのどれがリスナー位置に最も近いかに基づいて、2つ以上のオーディオ信号セットのうちの1つから1つ以上のオーディオ信号を選択することと、2つ以上のオーディオ信号セットのうちのどれがリスナー位置に近いか、および、さらなる切り替え閾値に基づいて、2つ以上のオーディオ信号セットのうちの1つから1つ以上のオーディオ信号を選択することと、のうちの1つを実行するよう構成されてよい。
少なくとも1つの修正されたパラメータ値を生成するように構成された手段は、2つ以上のオーディオ信号セットのうちの少なくとも2つについて、取得された少なくとも1つのパラメータ値を重みに基づいて結合するように構成されてもよい。
少なくとも1つの修正されたパラメータ値に基づいて少なくとも1つのオーディオ信号を処理し、空間オーディオ出力を生成するように構成された手段は、ヘッドホンおよび/またはイヤホン用の2つのオーディオ信号を含むバイノーラルオーディオ出力、および、マルチチャンネルスピーカーセット用の少なくとも2つのオーディオ信号を含むマルチチャンネルオーディオ出力の少なくとも1つを生成するように構成されてよい。
少なくとも1つのパラメータ値は、少なくとも1つの方向値、少なくとも1つの方向値に関連付けられた少なくとも1つの直接対全体比、少なくとも1つの方向値に関連付けられた少なくとも1つの拡散コヒーレンス、少なくとも1つの方向値に関連付けられた少なくとも1つの距離、少なくとも1つのサラウンドコヒーレンス、少なくとも1つの拡散対全体比、および、少なくとも1つの余剰対全体比、のうちの少なくとも1つを含んでよい。
オーディオ信号セットの少なくとも2つは、少なくとも2つのオーディオ信号を含み、少なくとも1つのパラメータ値を取得するように構成された手段は、2つ以上のオーディオ信号セットからの2つ以上のオーディオ信号を空間的に解析し、少なくとも1つのパラメータ値を決定するように構成されてよい。
少なくとも1つのパラメータ値を取得するように構成された手段は、オーディオ信号セットの少なくとも2つについて、少なくとも1つのパラメータ値を受信または取得するように構成されてもよい。
第2の態様によれば、2つ以上のオーディオ信号セットを取得することであって、各オーディオ信号セットは、位置に関連付けられている、取得することと、オーディオ信号セットの少なくとも2つについて少なくとも1つのパラメータ値を取得することと、オーディオ信号セットの少なくとも2つに少なくとも関連付けられた位置を取得することと、リスナー位置を取得することと、オーディオ信号セットの少なくとも2つに少なくとも関連付けられた位置およびリスナー位置に基づいて、2つ以上のオーディオ信号セットの少なくとも1つからの少なくとも1つのオーディオ信号に基づいて、少なくとも1つのオーディオ信号を生成することと、オーディオ信号セットの少なくとも2つについて、取得された少なくとも1つのパラメータ値、オーディオ信号セットの少なくとも2つに関連付けられた位置、およびリスナー位置に基づいて、少なくとも1つの修正されたパラメータ値を生成することと、少なくとも1つの修正されたパラメータ値に基づいて少なくとも1つのオーディオ信号を処理し、空間オーディオ出力を生成することと、を含む装置のための方法が提供される。
2つ以上のオーディオ信号セットを取得することは、マイクロホン装置から2つ以上のオーディオ信号セットを取得することを含み、各マイクロホン装置は、それぞれの位置にあり、1つ以上のマイクロホンを備えてよい。
各オーディオ信号セットは、方向と関連付けられ、方法は、2つ以上のオーディオ信号セットの方向を得ることをさらに含み、生成された少なくとも1つのオーディオ信号は、2つ以上のオーディオ信号セットと関連付けられた方向にさらに基づき、少なくとも1つの修正されたパラメータ値は、2つ以上のオーディオ信号セットと関連付けられた方向にさらに基づいてもよい。
方法は、リスナーの方向を取得することをさらに含み、少なくとも1つの修正されたパラメータ値は、リスナーの方向にさらに基づいてもよい。
少なくとも1つの修正されたパラメータ値に基づいて、少なくとも1つのオーディオ信号を処理し、空間オーディオ出力を生成することは、リスナーの方向にさらに基づいて、少なくとも1つのオーディオ信号を処理することをさらに含んでよい。
方法は、オーディオ信号セットの少なくとも2つに関連付けられた位置およびリスナー位置に基づいて、制御パラメータを取得することをさらに含み、オーディオ信号セットの少なくとも2つに関連付けられた位置およびリスナー位置に基づいて、2つ以上のオーディオ信号セットの少なくとも1つからの少なくとも1つのオーディオ信号を生成することが、制御パラメータに基づいて制御されてよい。
少なくとも1つの修正されたパラメータ値を生成することは、制御パラメータに基づいて制御されてもよい。
制御パラメータを得ることは、リスナー位置が配置されたオーディオ信号セットの少なくとも3つを識別することと、オーディオ信号セットの位置およびリスナー位置に基づいて、オーディオ信号セットの少なくとも3つに関連付けられた重みを生成することと、あるいは、リスナー位置に最も近いオーディオ信号セットの2つを識別し、オーディオ信号セットの位置およびオーディオ信号セットの2つの間の線からのリスナー位置の垂直投影に基づいて、オーディオ信号セットの2つに関連付けられた重みを生成することと、を含んでよい。
少なくとも1つのオーディオ信号を生成することは、重みに基づいて、2つ以上のオーディオ信号セットからの2つ以上のオーディオ信号を結合することと、2つ以上のオーディオ信号セットのうちのどれがリスナー位置に最も近いかに基づいて、2つ以上のオーディオ信号セットのうちの1つから1つ以上のオーディオ信号を選択することと、2つ以上のオーディオ信号セットのうちのどれがリスナー位置に最も近いか、および、さらなる切り替え閾値に近いかに基づいて、2つ以上のオーディオ信号セットのうちの1つから1つ以上のオーディオ信号を選択することと、のうちの1つを含んでよい。
少なくとも1つの修正されたパラメータ値を生成することを含む方法は、2つ以上のオーディオ信号セットのうちの少なくとも2つについて、取得された少なくとも1つのパラメータ値を重みに基づいて結合することを含んでもよい。
少なくとも1つの修正されたパラメータ値に基づいて少なくとも1つのオーディオ信号を処理し、空間オーディオ出力を生成することは、ヘッドホンおよび/またはイヤホン用の2つのオーディオ信号を含むバイノーラルオーディオ出力、および、マルチチャンネルスピーカーセット用の少なくとも2つのオーディオ信号を含むマルチチャンネルオーディオ出力の少なくとも1つを生成することを含んでよい。
少なくとも1つのパラメータ値は、少なくとも1つの方向値、少なくとも1つの方向値に関連付けられた少なくとも1つの直接対全体比、少なくとも1つの方向値に関連付けられた少なくとも1つの拡散コヒーレンス、少なくとも1つの方向値に関連付けられた少なくとも1つの距離、少なくとも1つのサラウンドコヒーレンス、少なくとも1つの拡散対全体比、および、少なくとも1つの余剰対全体比、のうちの少なくとも1つを含んでよい。
オーディオ信号セットのうちの少なくとも2つは、少なくとも2つのオーディオ信号を含んでよく、少なくとも1つのパラメータ値を取得することは、2つ以上のオーディオ信号セットからの2つ以上のオーディオ信号を空間的に解析し、少なくとも1つのパラメータ値を決定することを含んでよい。
少なくとも1つのパラメータ値を取得することは、オーディオ信号セットの少なくとも2つについて、少なくとも1つのパラメータ値を受信または取得することを含んでもよい。
第3の態様によれば、少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つのメモリと、を備え、少なくとも1つのメモリおよびコンピュータプログラムコードは、少なくとも1つのプロセッサによって、装置に少なくとも、2つ以上のオーディオ信号セットを取得し、各オーディオ信号セットは位置に関連付けられ、オーディオ信号セットの少なくとも2つについて少なくとも1つのパラメータ値を取得し、オーディオ信号セットの少なくとも2つに少なくとも関連付けられた位置を取得し、リスナー位置を取得し、オーディオ信号セットの少なくとも2つに少なくとも関連付けられた位置およびリスナー位置に基づいて、2つ以上のオーディオ信号セットの少なくとも1つからの少なくとも1つのオーディオ信号に基づいて、少なくとも1つのオーディオ信号を生成し、オーディオ信号セットの少なくとも2つについて、取得された少なくとも1つのパラメータ値、オーディオ信号セットの少なくとも2つに関連付けられた位置、およびリスナー位置に基づいて、少なくとも1つの修正されたパラメータ値を生成し、少なくとも1つの修正されたパラメータ値に基づいて、少なくとも1つのオーディオ信号を処理し、空間オーディオ出力を生成する、ことを実行させるように構成される装置が提供される。
2つ以上のオーディオ信号セットを得るようにされた装置は、マイクロホン装置から2つ以上のオーディオ信号セットを取得するようにさらにされてもよく、各マイクロホン装置は、それぞれの位置にあり、1つ以上のマイクロホンを備えてよい。
各オーディオ信号セットは、方向と関連付けられてもよく、装置は、2つ以上のオーディオ信号セットの方向を取得するようにさらにされてもよく、生成された少なくとも1つのオーディオ信号は、2つ以上のオーディオ信号セットと関連付けられた方向にさらに基づいてもよく、少なくとも1つの修正されたパラメータ値は、2つ以上のオーディオ信号セットと関連付けられた方向にさらに基づいてよい。
装置は、さらに、リスナーの方向を取得するようにされてもよく、少なくとも1つの修正されたパラメータ値は、リスナーの方向にさらに基づくようにされてもよい。
少なくとも1つの修正されたパラメータ値に基づいて、少なくとも1つのオーディオ信号を処理し、空間オーディオ出力を生成するようにされた装置は、リスナーの方向にさらに基づいて、少なくとも1つのオーディオ信号を処理するようにされてもよい。
装置は、オーディオ信号セットの少なくとも2つに関連付けられた位置およびリスナー位置に基づいて、制御パラメータを取得するようにさらにされてもよく、オーディオ信号セットの少なくとも2つに関連付けられた位置およびリスナー位置に基づいて、2つ以上のオーディオ信号セットの少なくとも1つからの少なくとも1つのオーディオ信号に基づいて、少なくとも1つのオーディオ信号を生成するようにされる装置は、制御パラメータに基づいて制御されてよい。
少なくとも1つの修正されたパラメータ値を生成させる装置は、制御パラメータに基づいて制御されてもよい。
制御パラメータを取得させる装置は、さらに、リスナー位置が配置されたオーディオ信号セットの少なくとも3つを識別し、オーディオ信号セットの位置およびリスナー位置に基づいて、オーディオ信号セットの少なくとも3つに関連付けられた重みを生成し、あるいは、リスナー位置に最も近いオーディオ信号セットの2つを識別し、オーディオ信号セットの位置およびオーディオ信号セットの2つの間の線からのリスナー位置の垂直投影に基づいて、オーディオ信号セットの2つに関連付けられた重みを生成させてよい。
少なくとも1つのオーディオ信号を生成するようにされる装置は、重みに基づいて、2つ以上のオーディオ信号セットからの2つ以上のオーディオ信号を結合することと、2つ以上のオーディオ信号セットのうちのどれがリスナー位置に最も近いかに基づいて、2つ以上のオーディオ信号セットのうちの1つから1つ以上のオーディオ信号を選択することと、2つ以上のオーディオ信号セットのうちのどれがリスナー位置に近いか、および、さらなる切り替え閾値に基づいて、2つ以上のオーディオ信号セットのうちの1つから1つ以上のオーディオ信号を選択することと、のいずれかを行うようにされてよい。
少なくとも1つの修正されたパラメータ値を生成するようにされた装置は、2つ以上のオーディオ信号セットのうちの少なくとも2つについて、取得された少なくとも1つのパラメータ値を重みに基づいて結合するようにされてもよい。
少なくとも1つの修正されたパラメータ値に基づいて少なくとも1つのオーディオ信号を処理し、空間オーディオ出力を生成するようにされた装置は、ヘッドホンおよび/またはイヤホン用の2つのオーディオ信号を含むバイノーラルオーディオ出力、および、マルチチャンネルスピーカーセット用の少なくとも2つのオーディオ信号を含むマルチチャンネルオーディオ出力の少なくとも1つを生成するようにしてもよい。
少なくとも1つのパラメータ値は、少なくとも1つの方向値、少なくとも1つの方向値に関連付けられた少なくとも1つの直接対全体比、少なくとも1つの方向値に関連付けられた少なくとも1つの拡散コヒーレンス、少なくとも1つの方向値に関連付けられた少なくとも1つの距離、少なくとも1つのサラウンドコヒーレンス、少なくとも1つの拡散対全体比、および、少なくとも1つの余剰対全体比、のうちの少なくとも1つを含んでよい。
オーディオ信号セットの少なくとも2つは、少なくとも2つのオーディオ信号を含んでよく、少なくとも1つのパラメータ値を取得するようにされる装置は、2つ以上のオーディオ信号セットからの2つ以上のオーディオ信号を空間的に解析し、少なくとも1つのパラメータ値を決定するようにされてもよい。
少なくとも1つのパラメータ値を取得するようにされた装置は、オーディオ信号セットのうちの少なくとも2つについて、少なくとも1つのパラメータ値を受信または取得するようにされてもよい。
第4の態様によれば、2つ以上のオーディオ信号セットを取得するための手段であって、各オーディオ信号セットが位置に関連付けられる、手段と、オーディオ信号セットの少なくとも2つについて、少なくとも1つのパラメータ値を取得するための手段と、オーディオ信号セットの少なくとも2つに少なくとも関連付けられた位置を取得するための手段と、リスナー位置を取得するための手段と、オーディオ信号セットの少なくとも2つに少なくとも関連付けられた位置およびリスナー位置に基づいて、2つ以上のオーディオ信号セットの少なくとも1つからの少なくとも1つのオーディオ信号に基づいて、少なくとも1つのオーディオ信号を生成するための手段と、オーディオ信号セットの少なくとも2つについて、取得された少なくとも1つのパラメータ値、オーディオ信号セットの少なくとも2つに関連付けられた位置、およびリスナー位置に基づいて、少なくとも1つの修正されたパラメータ値を生成するための手段と、少なくとも1つの修正されたパラメータ値に基づいて、少なくとも1つのオーディオ信号を処理し、空間オーディオ出力を生成するための手段と、を備える装置が提供される。
第5の態様によれば、2つ以上のオーディオ信号セットを取得することであって、各オーディオ信号セットは位置に関連付けられている、取得することと、オーディオ信号セットの少なくとも2つについて、少なくとも1つのパラメータ値を取得することと、オーディオ信号セットの少なくとも2つに関連付けられた位置を取得することと、リスナー位置を取得することと、オーディオ信号セットのうちの少なくとも2つに少なくとも関連付けられた位置およびリスナー位置に基づいて、2つ以上のオーディオ信号セットの少なくとも1つからの少なくとも1つのオーディオ信号に基づいて、少なくとも1つのオーディオ信号を生成することと、オーディオ信号セットの少なくとも2つについて、取得された少なくとも1つのパラメータ値、オーディオ信号セットの少なくとも2つに関連付けられた位置、およびリスナー位置に基づいて、少なくとも1つの修正されたパラメータ値を生成することと、少なくとも1つの修正されたパラメータ値に基づいて少なくとも1つのオーディオ信号を処理し、空間オーディオ出力を生成することと、を装置に少なくとも実行させるための命令(または、プログラム命令を含むコンピュータ可読媒体)を含むコンピュータプログラムが提供される。
第6の態様によれば、2つ以上のオーディオ信号セットを取得することであって、各オーディオ信号セットは位置に関連付けられている、取得することと、オーディオ信号セットの少なくとも2つについて、少なくとも1つのパラメータ値を取得することと、オーディオ信号セットの少なくとも2つに少なくとも関連付けられた位置を取得することと、リスナー位置を取得することと、オーディオ信号セットの少なくとも2つに少なくとも関連付けられた位置およびリスナー位置に基づいて、2つ以上のオーディオ信号セットの少なくとも1つからの少なくとも1つのオーディオ信号に基づいて、少なくとも1つのオーディオ信号を生成することと、オーディオ信号セットの少なくとも2つについて、取得された少なくとも1つのパラメータ値、オーディオ信号セットの少なくとも2つに関連付けられた位置、およびリスナー位置に基づいて、少なくとも1つの修正されたパラメータ値を生成することと、少なくとも1つの修正されたパラメータ値に基づいて少なくとも1つのオーディオ信号を処理し、空間オーディオ出力を生成することと、を装置に少なくとも実行させるためのプログラム命令を含む非一時的なコンピュータ可読媒体が提供される。
第7の態様によれば、2つ以上のオーディオ信号セットを取得するように構成された取得回路であって、各オーディオ信号セットは位置に関連付けられている、取得回路と、オーディオ信号セットの少なくとも2つについて、少なくとも1つのパラメータ値を取得するように構成された取得回路と、オーディオ信号セットの少なくとも2つに少なくとも関連付けられた位置を取得するように構成された取得回路と、リスナー位置を取得するように構成された取得回路と、オーディオ信号セットの少なくとも2つに少なくとも関連付けられた位置およびリスナー位置に基づいて、2つ以上のオーディオ信号セットの少なくとも1つからの少なくとも1つのオーディオ信号に基づいて、少なくとも1つのオーディオ信号を生成するように構成された生成回路と、オーディオ信号セットの少なくとも2つについて、取得された少なくとも1つのパラメータ値、オーディオ信号セットの少なくとも2つに関連付けられた位置、およびリスナー位置に基づいて、少なくとも1つの修正されたパラメータ値を生成するように構成された生成回路と、少なくとも1つの修正されたパラメータ値に基づいて、少なくとも1つのオーディオ信号を処理し、空間オーディオ出力を生成するように構成された処理回路と、を備える装置が提供される。
第8の態様によれば、2つ以上のオーディオ信号セットを取得することであって、各オーディオ信号セットが位置に関連付けられている、取得することと、オーディオ信号セットの少なくとも2つについて、少なくとも1つのパラメータ値を取得することと、オーディオ信号セットの少なくとも2つに少なくとも関連付けられた位置を取得することと、リスナー位置を取得することと、オーディオ信号セットの少なくとも2つに少なくとも関連付けられた位置およびリスナー位置に基づいて、2つ以上のオーディオ信号セットの少なくとも1つからの少なくとも1つのオーディオ信号に基づいて、少なくとも1つのオーディオ信号を生成することと、オーディオ信号セットの少なくとも2つについて、取得された少なくとも1つのパラメータ値、オーディオ信号セットの少なくとも2つに関連付けられた位置、およびリスナー位置に基づいて、少なくとも1つの修正されたパラメータ値を生成することと、少なくとも1つの修正されたパラメータ値に基づいて、少なくとも1つのオーディオ信号を処理し、空間オーディオ出力を生成することと、を装置に少なくとも実行させるためのプログラム命令を含むコンピュータ可読媒体が提供される。
上記の方法の動作を実行するための手段を含む装置。
上記の方法の動作を実行するように構成された装置。
上記の方法をコンピュータに実行させるためのプログラム命令を含む、コンピュータプログラム。
媒体に格納されたコンピュータプログラム製品は、本明細書に記載の方法を装置に実行させることができる。
電子機器は、本明細書に記載されるような装置を含んでよい。
チップセットは、本明細書で説明するような装置で構成されてもよい。
本願発明の実施形態は、最新技術に関連する問題を解決することを目的とする。
本願のより良い理解のために、次に、添付の図面を例として参照する。
図1は、いくつかの実施形態を実施するのに適した装置のシステムを模式的に示す。 図2は、距離誤差がレンダリングに与える影響を示す装置のシステムを模式的に示したものである。 図3は、距離誤差がレンダリングに与える影響を示す装置のシステムを模式的に示したものである。 図4は、空間メタデータのキャプチャおよびレンダリングに関するいくつかの実施形態の概要を示す図である。 図5は、いくつかの実施形態によるオーディオ信号及びメタデータの補間を実施するための好適な装置を概略的に示す。 図6は、いくつかの実施形態による図5に示す装置の動作のフロー図である。 図7は、アレイ構成内外の音源位置を模式的に示したものである。 図8は、いくつかの実施形態による図5に示す合成プロセッサを模式的に示す図である。 図9は、いくつかの実施形態による図5に示した合成プロセッサの動作のフロー図である。 図10は、いくつかの実施形態によるオーディオ信号及びメタデータの補間を実施するための好適な装置を模式的に示す図である。 図11は、いくつかの実施形態による図5に示す装置の動作のフロー図である。 図12は、いくつかの実施形態によるオーディオ信号およびメタデータの補間を実施するための好適な装置のさらなる図を模式的に示す。 図13は、示された装置を実施するのに適した装置の一例を概略的に示す図である。
以下の実施形態に関して本明細書でさらに詳細に説明する概念は、録音空間における異なる位置に対応する2つ以上のマイクロホンアレイを用いたパラメトリック空間オーディオキャプチャ、およびキャプチャしたサウンドシーンにおける異なる位置へのユーザの移動を可能にすること、言い換えれば、本発明は6DoFオーディオキャプチャおよびレンダリングに関するものである。
6DoFは、現在、VRゲームなどの仮想現実において、すべての空間情報が(すなわち、各音源の位置だけでなく、各音源のオーディオ信号も個別に)容易に利用可能であるため、オーディオシーンでの動きをレンダリングするのが容易である。本発明は、マイクロホンアレイでキャプチャされた空間オーディオにもロバストな6DoFキャプチャとレンダリングを提供することに関するものである。
マイクロホンアレイからの6DoFキャプチャとレンダリングは、例えば、HOA信号の6DoFレンダリングの要件がある次期MPEG-Iオーディオ規格に関連する。これらのHOA信号は、サウンドシーンにあるマイクロホンアレイから取得することができる。
以下の例では、オーディオ信号セットはマイクロホンによって生成される。例えば、マイクロホン装置は、1つ又は複数のマイクロホンを含み、オーディオ信号セットに対して1つ又は複数のオーディオ信号を生成することができる。いくつかの実施形態では、オーディオ信号セットは、仮想の、又は生成されたオーディオ信号(例えば、関連する仮想スピーカ位置を有する仮想スピーカオーディオ信号)であるオーディオ信号から構成される。
この概念をさらに詳しく説明する前に、まず、空間キャプチャと再生のいくつかの側面についてさらに詳しく説明する。例えば、図1に関して、空間キャプチャと再生の例が示されている。したがって、例えば、図1は、左側に空間オーディオ信号キャプチャ環境を示している。環境またはオーディオシーンは、オーディオ信号の実際の音源であってもよいし、オーディオ音源の抽象的表現であってもよい音源1(202)および音源2(204)から構成される。さらに、無指向性または非特定位置のアンビエンス部206が示されている。これらは、それぞれ2つ以上のマイクロホンから構成することができる少なくとも2つのマイクロホン装置/アレイによってキャプチャすることができる。
上述したようにオーディオ信号をキャプチャすることができ、さらに図1に矢印210で示すように、符号化、送信、受信、再生することができる。
再生例は、図1の右側に示されている。空間オーディオ信号の再生により、この例ではヘッドトラッキングヘッドホンを装着していることが示されているユーザ250に、知覚された音源1(212)、知覚された音源2(214)、及び知覚されたアンビエンス216を含む6DoF空間レンダリング218の形態で再生されたオーディオ環境が提示される。
以上のように、従来のマイクロホンアレイの線形およびパラメトリックな空間オーディオキャプチャ方法は、利用可能なマイクロホン装置に応じて、高品質な空間オーディオ処理を行うことが可能である。しかし、これらはいずれも単一位置でのキャプチャとレンダリングを前提に開発されたものである。つまり、リスナーはマイクロホンアレイの間を移動することができない。そのため、リスナーがマイクロホンアレイ間を自由に移動できる6自由度レンダリングには直接適用できない。
本明細書で論じる実施形態は、広帯域6自由度レンダリング方法を提供することを目的とする。これらは、マイクロホンアレイからの既知のパラメトリックレンダリングを改善することを目的とする。例えば、距離パラメータが(方向パラメータに加えて)周波数帯域で推定される方法、言い換えれば、音の位置が6DOFレンダリングのために推定される方法を改善することを目的としている。この改良は、すべての音響状態において音源の距離や位置が確実に推定されるわけではなく、距離や位置の推定に誤りがあると6自由度再生に大きな誤差が生じるという特性に関連するものである。この影響は、キャプチャ位置に対するリスナーの移動が大きい場合(例えば、任意の方向に1m以上)に顕著となる。
図2および図3に関して、複数の音源がある状態が示されている。図2は、例えば、理想的なキャプチャ状態を示している。キャプチャ位置306が示されており、黒いドット301、303、305、307は、個々の時間周波数タイルの推定方向と距離を示している。図に示すように、複数の音源が同時にアクティブである場合、パラメトリックキャプチャ時の方向パラメータは必ずしもいずれかの音源を指しているとは限らず、音源の間のどこかを指している可能性がある。このような知覚的/支配的な方向は、知覚的な意味での音の状態をよく近似することが知られているため、パラメトリックキャプチャシステムにとって問題ではない。しかしながら、特に、図2に関連し、理想的な態様として、また、距離が良好に推定される。したがって、聴取位置(listening position)310に関わらず、音源方向(音源1(302)と音源2(304))の間の円弧308(破線で示す)において(知覚的/支配的)方向が再生される。
しかしながら、図3は、距離推定値にノイズが多い複数音源の状態における、同じ配置の別の例を示しており、このような複数音源の状態における、より現実的な例である。この距離推定値ノイズは、誤った推定位置321,323,325,327を生じる。音が聴取位置306でレンダリングされる場合、この距離推定は大きな方向誤差を生じない。しかしながら、大きく異なる聴取位置310で音がレンダリングされる場合、音の方向は大きな空間的誤差を伴ってレンダリングされる。(知覚的/支配的)方向は、音源方向(音源1(302)および音源2(304))のかなり外側にまたがる円弧318(破線で示す)で再現される。したがって、空間再生は、この例では、図2に示す「理想的な」円弧308(破線で示す)と比較すると、より「広がって」いる。
「完全な」6DOFレンダリングにおけるリスナーが自由に動くことができる(そして、マイクロホンアレイの位置に近いだけではない)誤った推定拒理の結果として、ユーザがキャプチャ位置306にいるとき、誤った距離がレンダリングされた方向に影響しないため、レンダリングオーディオでは、音の方向が適切にレンダリングされる。各時間周波数タイルにおいて、知覚的/支配的な方向は、2つの同時音源によって決定される円弧でレンダリングされる。しかしながら、ユーザが図示された6自由度の聴取位置310に移動すると、誤った距離推定値の影響が明らかになる。その位置では、レンダリングされる音方向は、2つの音源の間にあるわけではない。言い換えれば、結果は、実際の音源方向から遠く離れていても潜在的な時折の空間アーティファクトを伴う、(音源の正確かつ点のような認識とは対照的に)広くて曖昧な空間レンダリング出力である。
そこで、本実施形態では、複数の音源が存在する場合や、リスナーが自由に移動できる場合に、マイクロホンアレイからの6自由度のオーディオキャプチャとレンダリングを適切に行うことを試みている。
知覚的に関連するパラメータは任意の適切なパラメータとすることができるが、本明細書で説明する以下の例では、次のパラメータセットである、音が到来する顕著な(または支配的な、または知覚的な)方向を示す周波数帯の少なくとも1つの方向パラメータ、およびそれらの方向から到来するエネルギーの量と音のエネルギーのうちのアンビエンス/サラウンドの量を示す比率パラメータを取得する。
上述したように、これらのパラメータを求める方法は様々である。既知の方法としては、指向性オーディオ符号化(DirAC)があり、1次アンビソニック信号(またはBフォーマット信号)に基づいて、方向と拡散性(すなわち、アンビエント対総エネルギー比)パラメータを周波数帯で推定するものである。以下の実施例では、パラメータ生成の主な例としてDirACを用いるが、PCT出願WO2018/091776で議論された、高次DirAC、高角平面波展開、ノキアの空間オーディオキャプチャ(SPAC)などの空間パラメータまたは空間メタデータを求める他の方法で置き換え可能であることが知られている。
説明されている実施形態は、明確で識別可能な音源を持つ状態や、より要求の厳しいオーディオシーンに対して、良質な位置追跡型立体音響再生を生成することを目的としている。例えば、屋外環境では、多くの同時発生音源がアクティブであることが多い。複数の音源が存在する場合(方向パラメータよりも多くの音源が存在する場合)、方向パラメータはもはや音源を指す物理的な記述子ではなく、知覚的な記述子である。つまり、例えば2つの音源がある場合、2つの音源の間の領域では、方向パラメータは時間-周波数区間における音源のエネルギーに依存して変動するのが一般的である。このことから、図3に示すように、距離推定がうまくいかない場合がある。例えば、方向パラメータの変動や比率パラメータを用いて距離を推定することができるが、これは部屋の残響や音源の距離はこれらの特性に影響を与えるためである。しかしながら、この場合、ある揺らぎや比率は音源の距離(残響)のせいではなく、同時に存在する音源のせいであるため、距離パラメータが人為的に大きくなってしまうのである。また、距離推定に視覚的な深度マップを使用する場合、揺らぎの方向が実際の音源の方向と一致しないことが多く、その結果、距離を誤って推定してしまう。また、2つのアレイを用意し、アレイからの投影光線を推定方向に向けて交差させることでも距離を推定することができる。しかしながら、複雑なサウンドシーンによる方向の揺らぎは、非常にノイズの多い交点を与えるため、ノイズの多い距離推定となる。すなわち、これらのパラメータ推定誤差は、6自由度再生音における空間誤差につながる傾向があるため、実施形態は、複雑なオーディオシーンにおける誤差が少ないパラメータ推定を提示することを目的とする。さらにいくつかの実施形態では、距離推定に依存しない6DOFレンダリングが提供され、したがって、より高いロバスト性が、複雑な状態に対しても提供される。実施形態は、実際のキャプチャ位置の間の位置に空間メタデータを補間してもよい。
このように、本明細書で議論される実施形態は、既知の位置にある少なくとも2つのマイクロホンアレイでキャプチャされたオーディオの6自由度(すなわち、リスナーがシーン内で移動でき、リスナー位置が追跡される)バイノーラルレンダリングに関連し得る。これらの実施形態は、さらに、広範囲の(6DOFで追跡された)聴取位置及び音場条件において高品質のバイノーラルオーディオレンダリングを提供し、特に、複数の同時音源がアクティブである状態及びリスナーがアレイ位置の近くにいない場合を改善し得る。実施形態は、さらに、対応するマイクロホンアレイ信号を使用してアレイ位置に対する空間メタデータを決定し、決定された空間メタデータを使用してリスナー位置に対する空間メタデータを(リスナー位置およびアレイ位置に基づいて)予測し、アレイ信号の選択または混合を(リスナー位置およびアレイ位置に基づいて)決定し、予測された空間メタデータとアレイ信号の決定された選択または混合に基づいて空間オーディオ出力をパラメトリックレンダリングしてもよい。
いくつかの実施形態では、装置および方法は、アレイ信号の決定された選択または混合が、最も近いアレイからの信号を参照し、ユーザが、以前に最も近かったアレイよりも(閾値によって)近い別のアレイの位置に移動すると、別のアレイからのオーディオ信号および予測された空間メタデータに基づいてバイノーラルオーディオ信号がレンダリングされるように、アレイ信号の選択または混合をさらに変更するように構成されてもよい。
一部の実施形態では、アレイ信号は、アンビソニックフォーマットに変換されたアレイ信号など、マイクロホンアレイ信号、またはそれに基づく信号を指す場合がある。
実施形態を実装できる例示的なシステムが図4に示されている。図4は、例えば、オーディオコンポーネント、音源1(400)、音源2(402)、およびアンビエンス410が存在するシステムを示している。さらに、システム内には、環境内のキャプチャ位置に配置されたキャプチャ装置401、403および405があり、オーディオ信号をキャプチャし、これらのオーディオ信号から空間メタデータを取得または決定するように構成される(404)。
システムは、適切なバイノーラルオーディオ信号を生成するように構成されたリスナー(ユーザ)装置407をさらに備える。したがって、いくつかの実施形態では、装置407は、空間メタデータおよびユーザ位置(キャプチャ位置に関して)に基づいて、ユーザ位置におけるレンダリングメタデータを決定する(406)ように構成されている。さらに、装置407は、レンダリングメタデータと、少なくとも1つのマイクロホンアレイ(直近であってもよい)からのオーディオ信号とを用いてバイノーラルレンダリングを実行する(408)ように構成されている。
したがって、実施形態は、複数の音源が同時に存在する場合であっても、また、キャプチャ装置のマイクロホンアレイ位置に近くない聴取位置であっても、良好なオーディオ品質を生成し得る。これらの実施形態は、距離メタデータの使用を省略する(これは、複数の音源が同時に存在する場合に信頼性が低く、マイクロホンアレイ位置から離れた位置で空間オーディオをレンダリングする際に方向誤差を生じることが示されている)。その代わりに、実施形態では、マイクロホン位置で決定された方向(及び直接対総エネルギー比)に基づいて、聴取位置の周波数帯域における方向を直接予測することを示す。方向(及び直接対総エネルギー比)の推定がより信頼できるように、いくつかの実施形態によって生じる方向誤差は著しく低減され、より良いオーディオ品質が生み出される。
図5に関して、例示的なシステムを示す。いくつかの実施形態では、このシステムは、単一の装置上に実装されてもよい。しかしながら、いくつかの他の実施形態では、本明細書に記載された機能は、2つ以上の装置上に実装されてもよい。
いくつかの実施形態では、システムは、マイクロホンアレイ信号に基づく複数の信号セット500を受信するように構成された入力を備える。マイクロホンアレイ信号に基づく複数の信号セットは、J組のマルチチャネル信号で構成されてもよい。信号は、マイクロホンアレイ信号自体であってもよいし、アンビソニック信号など、何らかの変換を施したアレイ信号であってもよい。これらの信号は、sj(m,i)と表記され、jは信号の発信元のマイクロホンアレイのインデックス(すなわち、信号セットのインデックス)、mはサンプルの時間、iは信号セットのチャンネルインデックスである。
複数の信号セットは、信号補間器503および空間アナライザ501に渡すことができる。
いくつかの実施形態では、システムは、空間アナライザ501を含んでいる。空間アナライザ501は、オーディオ信号sj(m,i)を受信し、これらを分析して、時間周波数領域における各アレイの空間メタデータを決定するように構成される。
空間分析は、任意の適切な技術に基づくことができ、様々な入力タイプに適した方法が既に知られている。例えば、入力信号がアンビソニックまたはアンビソニック関連の形式である場合(例えば、Bフォーマットのマイクロホンから発信されたもの)、またはアレイが適切な方法でアンビソニック形式(例えば、Eigenmike)に変換できる場合、指向性オーディオ符号化(DirAC)分析を実行することが可能である。一次DirACは、Pulkki,Ville.、「指向性音声符号化方式による空間音響再生」(Spatial sound reproduction with directional audio coding)、Journal of the Audio Engineering Society、55、no.6(2007)、503-516頁には、Bフォーマット信号(一次アンビソニックスの変形)から、周波数帯域における方向およびアンビエント対総エネルギー比パラメータからなる空間メタデータの集合を推定する方法が記載されている。
高次のアンビソニックスが利用できる場合は、Archontis Politis、Juha Vilkamo、Ville Pulkki、「球面調和領域におけるセクターベースのパラメトリック音場再生」(Sector-based parametric sound field reproduction in the spherical harmonic domain)、IEEE Journal of Selected Topics in Signal Processing、9、no.5、(2015)、852-866頁には、複数の方向パラメータを同時に取得するための方法が記載されている。いくつかの実施形態で実装され得るさらなる方法は、PCT公開特許出願WO2018/091776に記載されるような携帯電話およびタブレットなどのフラットデバイスからの空間メタデータの推定、ならびに非フラットデバイス用の同様の遅延ベース解析方法であるGB公開特許出願GB2572368を含む。
換言すれば、空間メタデータを取得するための様々な方法があり、選択された方法は、アレイタイプ及び/又はオーディオ信号のフォーマットに依存し得る。いくつかの実施形態では、ある周波数帯域で1つの方法が適用され、別の周波数帯域で別の方法が適用される。以下の例では、分析は、1次アンビソニック(FOA)オーディオ信号(これは、空間オーディオの分野で広く知られている信号フォーマットである)の受信に基づいて行われる。さらに、これらの例では、修正されたDirACの手法が使用される。例えば、入力は、既知のSN3D正規化(シュミット半正規化)およびACN(アンビソニックスチャネル番号)チャネル順形式のアンビソニックオーディオ信号である。
いくつかの実施形態では、空間アナライザは、マイクロホンアレイ毎に以下を実行するように構成される。
1)まず、入力信号sj(m,i)を時間-周波数領域形式の信号に変換する。例えば、変換は、短時間フーリエ変換(STFT)または複素変調直交ミラーフィルタ(QMF)バンクを使用して実施され得る。一例として、STFTは、通常、Nサンプルのフレーム長に対して、現在のフレームと前のフレームを(例えば、正弦波ウィンドウで)ウィンドウ化し、高速フーリエ変換(FFT)で処理するように構成された手順である。その結果は、sj(b,n,i)として示される時間-周波数ドメイン信号であり、bは周波数ビン、nは時間フレームインデックスである。時間周波数信号(この場合、4チャンネルのFOA信号)は、次のようにしてベクトル形式でグループ化される。
Figure 2023515968000002
2)次に、時間-周波数信号が周波数帯域で使用される。周波数ビンがSTFTドメイン内の単一の複雑なサンプルを示すのに対し、周波数帯域はこれらのビンのグループを示す。k=1・・・Kを周波数帯域インデックスとし、Kを周波数帯域の数とすると、各帯域kは、最低ビンbk,lowと最高ビンbk,highを有する。いくつかの実施形態では、信号共分散行列は、以下によって周波数帯域で推定される。
Figure 2023515968000003
いくつかの実施形態では、時間インデックスnに対する時間的平滑化が適用されてもよい。
3)次に、伝搬する音の反対方向を指す逆音場強度ベクトルを決定する。
Figure 2023515968000004
ACN順序をデカルトのx,y,z順序に変換するチャネル順序に注意すること。
4)次に、帯域k、時間インデックスnの方向パラメータをij(k,n)の方向として決定する。方向パラメータは、例えば方位角θj(k,n)および仰角
Figure 2023515968000005
で表すことができる。
5)そして、直接対総エネルギー比は次のように定式化される。
Figure 2023515968000006
方位角θj(k,n)、仰角
Figure 2023515968000007
および直接対総エネルギー比rj(k,n)は、各帯域k、各時間インデックスn、および各信号セット(各アレイ)jについて定式化される。したがって、この情報は、空間アナライザからメタデータ補間器507に出力される各アレイについてのメタデータ506を形成する。
いくつかの実施形態では、システムは、さらに、位置プリプロセッサ505を備える。位置プリプロセッサ505は、オーディオ環境内のマイクロホンアレイ位置502及びリスナー位置504に関する情報を受信するように構成される。
従来技術で知られているように、パラメトリック空間オーディオキャプチャおよびレンダリングにおける重要な目的は、リスナーにとって知覚的に正確な空間オーディオ再生を得ることである。したがって、位置プリプロセッサ505は、任意の位置について(リスナーが任意の位置に移動することがあるため)、マイクロホンアレイ位置502及びリスナー位置504に基づくメタデータの修正を可能にする補間データを決定できるように構成される。
この例では、マイクロホンアレイは平面上に配置されている。つまり、アレイはz軸方向の変位成分を持たない。しかしながら、実施形態をz軸に拡張することは、マイクロホンアレイが線上に配置されている状態(言い換えれば、1軸の変位しかない)と同様に、いくつかの実施形態で実施することができる。
例えば、図7は、マイクロホンアレイ(円形のアレイ1(701)、アレイ2(703)、アレイ3(705)、アレイ4(707)、アレイ5(709)として示されている)が平面上に配置されているマイクロホン配置を示す。空間メタデータは、アレイの位置で決定されている。平面上に5つのマイクロホンアレイが配置されている。平面は、例えば、ドロネーの三角形分割により、補間三角形に分割されてもよい。ユーザが三角形内のある位置(例えば、位置1(711))に移動すると、その位置を含む三角形を形成する3つのマイクロホンアレイが補間のために選択される(この例では、アレイ1(701)、アレイ3(705)、アレイ4(707))。ユーザがマイクロホンアレイの範囲外に移動した場合(例えば、位置2(713))、ユーザの位置をマイクロホンアレイの範囲内の最も近い位置(例えば、投影された位置2(714))に投影し、次に投影された位置が存在するアレイ-三角形を補間のために選択する(この例では、これらのアレイは、アレイ2(703)、アレイ3(705)、アレイ5(709)である)。位置が投影されると、投影された位置は元のリスナー位置パラメータを上書きする。
上記の例では、このように位置の投影によって、マイクロホン装置によって決定される領域の外側の位置を、マイクロホン装置によって決定される領域の端にマッピングする。これは制限のように見えるかもしれないが、実際には、6DOFメディアキャプチャと再生を考えた場合、6DOFの映像再生を可能にするVRカメラ群から得られる映像に音声が付随する。また、(映像も生成する必要性から)VRカメラがカバーする領域は、ユーザがシーン内で移動できる領域を限定することが予想され、さらに各VRカメラにはマイクロホン装置も含まれることが予想される。したがって、補間の最も重要な領域は、マイクロホンアレイが跨る領域内にある。このように、投影は、本方法が決定された領域の外側で完全に失敗するわけではないことを説明している。最も近い投影された位置は、マイクロホン装置が跨る領域のわずかに外側の位置における音場特性の公正な近似である。
このようにして、位置プリプロセッサ505は、以下のものを決定することができる。
リスナーの位置ベクトルpL(この例では、x座標およびy座標を含む2×1ベクトル)であって、元の位置でも投影された位置でもよい。
3つのマイクロホン装置インデックスj1、j2、j3、及び対応する位置ベクトルpjx。これら3つのマイクロホン装置は、位置pLを内包する。
位置プリプロセッサ505は、さらに、補間重みw1、w2、w3をさらに定式化することができる。これらの重みは、例えば、重心座標とデカルト座標との間の以下の既知の変換を使用して定式化することができる。まず、位置ベクトルpjxに基づいて、各ベクトルにユニティ値を付加し、得られたベクトルを結合して行列にすることにより、3x3の行列を決定する。
Figure 2023515968000008
次に、逆行列と、リスナー位置ベクトルpLにユニティ値を付加して得られる3x1ベクトルを用いて重みを定式化する。
Figure 2023515968000009
補間重み(w1、w2、w3)、位置ベクトル(pL、pj1、pj2、pj3)、マイクロホン装置インデックス(j1、j2、j3)を合わせて補間データ508、510とし、信号補間器503およびメタデータ補間器507に供給される。
いくつかの実施形態では、システムは、補間データ508および各アレイのメタデータ506を受信するように構成されたメタデータ補間器507を備える。次いで、メタデータ補間器は、補間重みw1、w2、w3を使用してメタデータを補間するように構成される。いくつかの実施形態では、これは、最初に空間メタデータをベクトル形式に変換することによって実施され得る。
Figure 2023515968000010
そして、これらのベクトルは、次のように平均化される。
Figure 2023515968000011
そして、次のように表記する。
Figure 2023515968000012
補間メタデータが以下のように得られる。
Figure 2023515968000013
Figure 2023515968000014
Figure 2023515968000015
そして、補間メタデータ514は、合成プロセッサ509に出力される。
以上では、メタデータ補間の一例を示した。他の実施形態において、他の補間規則も設計及び実装されてもよい。例えば、補間比率パラメータは、入力比率の(w1、w2、w3による)加重平均としても決定されてもよい。さらに、いくつかの実施形態では、平均化は、アレイ信号のエネルギーに応じた重み付けも含むことができる。
いくつかの実施形態では、システムは、信号補間器503をさらに備える。信号補間器は、入力オーディオ信号500及び補間データ510を受信するように構成される。いくつかの実施形態における信号補間器503は、空間アナライザ501と同じ方法で入力信号を時間-周波数領域にまず変換してもよい。いくつかの実施形態では、信号補間器503は、空間アナライザ501から時間-周波数オーディオ信号を直接受信するように構成される。
その後、信号補間器503は、各信号および各帯域について総エネルギーを決定するように構成されてもよい。本明細書に示す例では、信号はFOA信号の形態であるため、総エネルギーは、
Figure 2023515968000016
として決定することができる。この値は、空間アナライザ501における(または、そこから得られる)のと同じ方法で定式化することができる。
そして、信号補間器503は、インデックスj1、j2、j3について、距離値
Figure 2023515968000017
および、jminDとして示される最小距離を有するインデックスを決定するように構成されてもよい。
そして、信号補間器503は、選択されたインデックスjselを決定するように構成される。最初のフレーム(または、処理開始時)については、信号補間器は、jsel=jminDを設定してもよい。
次のフレームまたは後続のフレーム(または任意の時間分解能)において、ユーザ位置が潜在的に変化した場合、信号補間器は、選択jselを変更する必要があるかどうかを判断するように構成されている。jselがj1、j2、j3に含まれていない場合は、変更が必要である。この条件は、ユーザがjselを含まない別の領域に移動したことを意味する。また、djsel>dJminDα(αは閾値)である場合にも変更が必要である。例えば、α=1.2である。この条件は、jselのアレイ位置と比較して、ユーザがjminDのアレイ位置へ著しく近づいたことを意味する。この閾値は、ユーザが2つの位置の中間にいるときに、選択が不規則に行ったり来たりしないようにするために必要である(つまり、アレイ間の急激な切り替えを防ぐためのヒステリシス閾値を提供するためである)。
上記のどちらかの条件を満たした場合、jsel=jminDとする。それ以外の場合は、以前のjselの値が保持される。
中間補間信号は、以下のように決定される。
Figure 2023515968000018
このような処理では、jselが変化すると、同時にすべての周波数帯域で選択範囲が変更されることになる。いくつかの実施形態では、選択は、周波数に依存する方法で変更されるように設定される。例えば、jselが変化したとき、次に、一部の周波数帯域は直ちに更新され、一方、他の帯域は、すべての帯域が変更されるまで次のフレームで変更される。このような周波数依存の方法で信号を変更することは、信号S´interp(b,n,i)における潜在的なスイッチングアーティファクトを減らすために必要となる場合がある。このような構成では、切り替えが行われているとき、短い移行期間において、信号S´interp(b,n,i)の一部の周波数は1つのマイクロホンアレイからのものであり、他の周波数は別のマイクロホンアレイからのものである可能性がある。
そして、中間補間信号S´interp(b,n,i)をエネルギー補正する。等化ゲインは、周波数帯域で以下のように定式化される。
Figure 2023515968000019
max値は、過剰な増幅を制限する値であり、例えばgmax=4である。その後、乗算により等化が行われる。
Figure 2023515968000020
ここで、kは、ビンbが存在する帯域インデックスである。そして、信号S(b,n,i)は、合成プロセッサに出力される補間信号512である。
本システムは、さらに、合成プロセッサ509を備える。合成プロセッサは、補間信号512および補間メタデータ514と同様に、リスナー方向情報516(例えば、頭部方向追跡情報)を受信するように構成されてもよい。
いくつかの実施形態では、合成プロセッサは、以下の定式化で使用されるベクトル回転関数を決定するように構成される。Laitinen,M.V.、2008年、「指向性オーディオ符号化のためのバイノーラル再生」(Binaural reproduction for directional audio coding)、修士論文(Master’s thesis)、ヘルシンキ工科大学(Helsinki University of Technology)、54-55頁の原則によれば、回転関数を次のように定義することが可能である。
Figure 2023515968000021
ここで、ヨー、ピッチ、ロールは頭の方向パラメータであり、x、y、zは回転する単位ベクトルの値である。その結果、回転した単位ベクトルであるx´、y´、z´が得られる。マッピング関数は以下のステップを実行する。
1.ヨー回転
Figure 2023515968000022
Figure 2023515968000023
Figure 2023515968000024
2.ピッチ回転
Figure 2023515968000025
Figure 2023515968000026
Figure 2023515968000027
3.最後にロール回転
Figure 2023515968000028
Figure 2023515968000029
Figure 2023515968000030
合成プロセッサ509は、これらのパラメータを決定した後、任意の適切な空間レンダリングを実装してもよい。例えば、いくつかの実施形態では、合成プロセッサ509は、例えば、PCT公開WO2019/086757に記載された原理に従って、3DOFレンダリングを実装してもよい。そのような実施形態では、バイノーラル、アンビソニック、またはサラウンドラウドスピーカー形式へのパラメトリックオーディオ信号(オーディオおよび空間メタデータ)のレンダリングが実装され得る(518)。
図6は、図5の動作を示すフロー図である。
したがって、いくつかの実施形態では、図6のステップ601に示すように、マイクロホンアレイ信号に基づいて複数の信号セットを取得することがあり得る。
複数の信号セットを取得した後、図6のステップ603に示すように、各アレイの空間分析が行われる場合がある。また、図6のステップ602に示すように、マイクロホンアレイの位置が取得される場合もある。
さらに、図6のステップ610に示すように、リスナーの位置/方向を取得することもある。
マイクロホンアレイの位置およびリスナーの方向/位置を取得した後、方法は、図6のステップ604に示すように、相対位置を処理することによって補間係数を得ることができる。
相対位置および信号/メタデータを処理して補間係数を求めたら、図6のステップ606に示すように、信号を補間し、図6のステップ605に示すように、メタデータを補間することができる。
補間メタデータと信号、およびリスナーの方向/位置を決定した後、方法は、図6のステップ611に示すように、合成処理を適用することができる。
図6のステップ613に示されるように、空間オーディオが出力される。合成プロセッサ509は、図8でさらに詳細に示されている。
いくつかの実施形態における合成プロセッサ509は、プロトタイプ信号発生器801を備える。いくつかの実施形態におけるプロトタイプ信号発生器801は、時間周波数領域で受信される補間信号512を、頭部(ユーザ/リスナー)方向情報516と共に受信するように構成される。
プロトタイプ信号は、処理された出力に少なくとも部分的に似ている信号であり、したがって、パラメトリックレンダリングを実行するための適切な出発点として機能する。この例では、出力はバイノーラル信号であるため、プロトタイプ信号は、2つのチャンネル(左右)を有し、ユーザの頭の方向に応じて空間オーディオシーンで方向付けられるように設計されている。2チャンネル(i=1,2の場合)のプロトタイプ信号は、例えば、次のように定式化することができる。
Figure 2023515968000031
ここで、
Figure 2023515968000032
は、頭の方向情報に基づく混合重みである。例えば、プロトタイプ信号は、補間されたFOA信号から生成される2つのカーディオイドパターン信号であり、1つは(ユーザの頭の方向に対して)左方向を指し、もう1つは右方向を指し示すことができる。このようなパターンは、p1,1=p2,1=0.5、(WYZXをチャンネル次数と仮定する)かつ以下のときに得られる。
Figure 2023515968000033
Figure 2023515968000034
Figure 2023515968000035
および
Figure 2023515968000036
上記のカーディオイド形状のプロトタイプ信号の例は、一例に過ぎない。他の例では、プロトタイプ信号は、異なる周波数に対して異なる可能性があり、例えば、低周波では、空間パターンはカーディオイドよりも指向性が低く、高周波では形状はカーディオイドになる可能性がある。このような選択は、広帯域のカーディオイドパターンよりもバイノーラル信号に近いため、動機づけられている。しかしながら、一般的な傾向として、プロトタイプの信号に対してある程度の左右差を得ることができるのであれば、どのパターンデザインを適用するかはあまり重要ではない。これは、以下で説明するパラメトリック処理のステップによって、チャンネル間の特徴が補正されるからである。
そして、プロトタイプの信号は、ベクトル形式で表現することができる。
Figure 2023515968000037
そして、プロトタイプ信号は、共分散行列推定器803およびミキサー809に出力することができる。
いくつかの実施形態では、合成プロセッサ509は、時間-周波数プロトタイプ信号の共分散行列およびその総エネルギー推定値を、周波数帯域で推定するように構成される。前述のように、共分散行列は、以下のように推定できる。
Figure 2023515968000038
共分散行列の推定は、いくつかの時間インデックスnにわたるMR平均化またはFIR平均化などの時間平均化を含む場合がある。共分散行列推定器803は、Cx(k,n)の対角値の合計である総エネルギー推定値E(k,n)を定めるようにも構成され得る。いくつかの実施形態では、プロトタイプ信号から総エネルギーを推定する代わりに、総エネルギー推定値は、補間信号512に基づいて推定され得る。例えば、図5に示す信号補間器において、総エネルギー推定値が既に決定されており、そこから求めてもよい。
総エネルギー推定値806は、ターゲット共分散行列決定器805への出力として提供され得る。推定された共分散行列は、混合規則決定器807に出力され得る。
合成プロセッサ509は、ターゲット共分散行列決定器805をさらに備えてもよい。ターゲット共分散行列決定器805は、補間された空間メタデータ514及び総エネルギー推定値E(k,n)806を受信するように構成される。この例では、空間メタデータは、方位角θ´(k,n)、仰角
Figure 2023515968000039
、および直接-総エネルギー比r´(k,n)を含む。いくつかの実施形態におけるターゲット共分散行列決定器805は、頭部方向(ヨー、ピッチ、ロール)情報516も受信する。
いくつかの実施形態では、ターゲット共分散行列決定器は、空間メタデータを頭の方向に従って回転させるように構成され、以下の式によって、空間メタデータを回転させる。
Figure 2023515968000040
回転方向は以下のようになる。
Figure 2023515968000041
Figure 2023515968000042
また、ターゲット共分散行列決定器805は、合成プロセッサに予め存在するHRTF(頭部伝達関数)データセットを利用してもよい。HRTFセットから、任意の角度
Figure 2023515968000043
及び周波数帯域kについて2x1複素数値の頭部伝達関数(HRTF)
Figure 2023515968000044
を取得可能であると仮定する。例えば、HRTFデータは、帯域kの中間周波数でHRTFを得ることができるように、周波数領域に予め変換されたHRTFの密なセットであってもよい。次に、レンダリング時に、所望の方向に最も近いHRTFペアが選択され得る。いくつかの実施形態では、2つ以上の最近接データ点間の補間を実行してもよい。HRTFを補間するための様々な手段が、文献に記載されている。
HRTFデータセットでは、拡散場共分散行列も各帯域kに対して定式化されている。例えば、拡散場共分散行列は、d=1・・・Dである方向
Figure 2023515968000045
の均等に分散されたセットを取得し、拡散場共分散行列を次のように推定することによって取得できる。
Figure 2023515968000046
そして、ターゲット共分散行列決定部805は、以下のようにしてターゲット共分散行列を定式化することができる。
Figure 2023515968000047
そして、ターゲット共分散行列Cy(k,n)は、混合規則決定器807に出力される。
いくつかの実施形態では、合成プロセッサ509は、混合規則決定器807をさらに備える。混合規則決定器807は、ターゲット共分散行列Cy(k,n)、および測定共分散行列Cx(k,n)を受信するように構成され、混合行列M(k,n)を生成する。混合手順は、Vilkamo,J.、Backstrom,T.、Kuntz,A.、2013年、「空間オーディオの時間周波数処理のための最適化された共分散領域フレームワーク」(Optimized covariance domain framework for time-frequency processing of spatial audio)、Journal of the Audio Engineering Society、61(6)、403-411頁に記載された方法を用いて混合行列を生成することができる。
上記文献の付録に記載されている式を用いて、混合行列M(k、n)を作成できる。本明細書では、明確にするために、行列について同じ表記法を使用した。いくつかの実施形態では、混合規則決定器807は、混合行列812の生成を導くプロトタイプ行列
Figure 2023515968000048
を決定するようにも構成される。これらの行列の理論的根拠およびそれらに基づいて混合行列M(k,n)を取得するための式は、上記引用文献に詳細に記載されており、本明細書では繰り返さない。要するに、この方法は、共分散行列Cx(k,n)を有する信号に適用したときに、最小二乗最適化された方法で、Cy(k,n)と実質的に同じかまたは類似の共分散行列を有する信号を生成する混合行列M(k,n)を提供するような方法である。これらの実施形態では、プロトタイプ信号の生成は、プロトタイプ信号生成器801によって既に実装されているため、プロトタイプ行列Qは、恒等行列である。恒等プロトタイプ行列を有することは、処理が、ターゲット共分散行列Cy(k,n)を取得しながら、入力(すなわち、プロトタイプ信号に関して)にできるだけ類似する出力を生成することを目的とすることを意味する。混合行列M(k,n)812は、各周波数帯域kについて定式化され、ミキサーに提供される。いくつかの実施形態における合成プロセッサ509は、ミキサー809を備える。
ミキサー809は、時間周波数プロトタイプオーディオ信号802および混合行列812を受信するように構成される。ミキサー809は、入力されたプロトタイプ信号802を処理して、2つの処理された(バイノーラル)時間周波数信号814を生成する。
Figure 2023515968000049
ここで、ビンbは帯域kに存在する。
上記の手順では、入力信号x(b,n)が、ターゲット共分散行列特性を持つ出力信号y(b,n)をレンダリングするために、それらの間に適切な非干渉性があったと仮定している。状態によっては、入力信号が適切なチャネル間非干渉性を持たないこともあり得る。このような状態では、x(b,n)に基づく非相関信号を生成するために非相関演算を利用し、非相関信号を、上式の信号y(b,n)に加えられる特定の残差信号に混合する必要がある。このような残差信号を得る手順については、先に引用した文献で説明されている。
そして、ミキサー809は、処理されたバイノーラル時間周波数信号y(b,n)814を出力するように構成され、逆T/F変換器811に供給される。
いくつかの実施形態における合成プロセッサ509は、信号がSTFTドメインにある場合には逆STFTのような、適用された時間周波数変換に対応する逆時間周波数変換を処理されたバイノーラル時間周波数信号814に適用して空間オーディオ出力518を生成する逆T/F変換器811を備え、これはヘッドホンで再生できるバイノーラル形式であってよい。
図8に示した合成プロセッサの動作を、図9のフロー図に示す。
したがって、この方法は、図9のステップ901に示すように、補間された(時間-周波数)信号を取得することを含む。
さらに、図9のステップ902に示すように、リスナーの頭の方向が取得される。
そして、図9のステップ903に示すように、補間された(時間-周波数)信号および頭の方向に基づいて、プロトタイプ信号が生成される。
さらに、図9のステップ905に示すように、プロトタイプ信号に基づいて共分散行列が生成される。
さらに、図9のステップ906に示すように、補間メタデータが取得され得る。
図9のステップ907に示すように、補間メタデータおよび共分散行列に基づいて、ターゲット共分散行列が決定される。
その後、図9のステップ909に示すように、混合規則を決定することができる。
図9のステップ911に示すように、混合規則およびプロトタイプ信号に基づいて、混合(mix)を生成し、空間オーディオ信号を生成することができる。
そして、図9のステップ913に示すように、空間オーディオ信号を出力することができる。
いくつかのさらなる実施形態が図10に示されている。これらの実施形態では、システムは、エンコーダプロセッサ1040及びデコーダプロセッサ1060の2つの別々の装置で実装され、エンコーダ/MUX1001及びDEMUX/デコーダ1009が追加されていること以外は、図5と同様である。
これらの実施形態では、エンコーダプロセッサ1040は、複数の信号セット500及びマイクロホンアレイ位置502を入力として受信するように構成されている。エンコーダプロセッサ1040は、さらに、複数の信号セット500を受信し、各アレイのメタデータ506を出力するように構成された空間アナライザ501を備える。エンコーダプロセッサ1040は、さらに、複数の信号セット500、各アレイのメタデータ506(空間アナライザ501から)、およびマイクロホンアレイ位置502を受信するように構成されたエンコーダ/MUX1001を備える。エンコーダ/MUX1001は、例えば、MPEG-Hの文脈で説明されてきたアンビソニック信号を符号化する任意の方法など、オーディオ信号の適切な符号化方式を適用するように構成される。また、エンコーダ/MUX1001ブロックは、ダウンミックスするか、さもなければ、符号化されるオーディオチャネルの数を減らしてもよい。さらに、エンコーダ/MUX1001は、空間メタデータおよびアレイ位置情報を量子化して符号化し、符号化された結果を、符号化されたオーディオ信号とともにビットストリーム1006に埋め込んでもよい。ビットストリーム1006は、さらに、符号化されたビデオ信号と同じメディアコンテナで提供されてもよい。その後、エンコーダ/MUX1001は、ビットストリーム1006を出力する。採用されたビットレートによっては、エンコーダは、信号セットの一部の符号化を省略している場合があり、その場合は、対応するアレイ位置とメタデータの符号化を省略している場合がある(ただし、メタデータの補間に使用するために、それらも残しておくことが可能である)。
デコーダプロセッサ1060は、DEMUX/デコーダ1009を備える。DEMUX/デコーダ1009は、ビットストリーム1006を受信し、マイクロホンアレイ500´(そして、それらを信号補間器503に提供する)、マイクロホンアレイ位置502´(そして、それらを位置プリプロセッサ505に提供する)、および各アレイのメタデータ506´に基づいて、複数の信号セットを復号および逆多重化する(そして、それらをメタデータ補間器507に提供する)よう構成されている。
デコーダプロセッサ1060は、図5および図8に関してさらに詳細に説明するように、信号補間器503、位置プリプロセッサ505、メタデータ補間器507、および合成プロセッサ509をさらに備える。
上記の例では、アレイ位置に関連する情報は、ビットストリーム1006を介してエンコーダプロセッサ1040からデコーダプロセッサ1060に伝達されるが、いくつかの実施形態では、位置プリプロセッサ505がエンコーダプロセッサ1040内に実装されるようにシステムが構成されてもよいため、これは必要ない可能性がある。このような例では、エンコーダプロセッサは、例えば10cmの空間分解能で、予め定義された予想されるユーザ位置の適切なグリッドで必要な補間データを生成するように構成される。この補間データは、適切な手段を用いて符号化され、ビットストリームでデコーダに(復号化されるように)提供され得る。次いで、補間データは、デコーダプロセッサ1060において、ユーザ位置に対応する最も近い既存のデータセットを選択することによって、ユーザ位置に基づくルックアップテーブルとして使用される。
図10に示したシステムの動作を示すフロー図が図11に示される。
この方法は、図11のステップ1101に示すように、マイクロホンアレイ信号に基づいて複数の信号セットを取得することから開始してもよい。
次に、本方法は、図11のステップ1103に示すように、信号セットを空間的に分析して、空間メタデータを生成することを含んでよい。
その後、図11のステップ1105に示すように、メタデータ、信号、および他の情報を符号化し、多重化してもよい。
符号化され多重化された信号及び情報は、次に、図11のステップ1107に示すように、復号化及び逆多重化されてもよい。
マイクロホンアレイの位置及びリスナーの方向/位置を取得すると、本方法は、図11のステップ1109に示すように、相対位置を処理することによって補間係数を得ることができる。
相対位置および信号/メタデータを処理して補間係数を求めたら、図11のステップ1111に示すように、信号を補間し、図11のステップ1113に示すように、メタデータを補間することができる。
補間メタデータと信号、およびリスナーの方向/位置を決定すると、本方法は、図11のステップ1115に示すように、合成処理を適用することができる。
図11のステップ1117に示すように、空間オーディオが出力される。
図10のエンコーダおよびデコーダプロセッサの適用例を図12に示す。
この例では、3つのマイクロホンアレイがあり、例えば、十分な数のマイク(例えば、30個以上)を有する球形アレイや、表面にマイクを取り付けたVRカメラ(例えば、OZOなど)であってもよい。このように、コンピュータ1(1205)(および、この例ではFOA/HOA変換器1215)にオーディオ信号を出力するように構成されたマイクロホンアレイ1(1201)、マイクロホンアレイ2(1211)、およびマイクロホンアレイ3(1221)が示されている。
さらに、各アレイは、対応するアレイの位置情報を提供するロケータも備えている。したがって、コンピュータ1(1205)(および、この例ではエンコーダプロセッサ1040)に位置情報を出力するように構成されたマイクロホンアレイ1ロケータ1203、マイクロホンアレイ2ロケータ1213、およびマイクロホンアレイ3ロケータ1223が示されている。
図12のシステムは、アレイ信号を1次アンビソニック(FOA)または高次アンビソニック(HOA)信号に変換するように構成されたFOA/HOA変換器1215を備えたコンピュータ、コンピュータ1(1205)を更に備える。マイクロホンアレイ信号をアンビソニック信号に変換することは知られており、本明細書では詳細に説明しないが、アレイが例えばEigenmikesであれば、マイクロホン信号をアンビソニック形式に変換する利用可能な手段が存在する。
FOA/HOA変換器1215は、変換されたアンビソニック信号を、マイクロホンアレイ信号に基づく複数の信号セット1216の形態で、上述したエンコーダプロセッサ1040として動作しうるエンコーダプロセッサ1040に出力する。
マイクロホンアレイロケータ1203、1213、1223は、マイクロホンアレイ位置情報を、例えばブルートゥース(登録商標)接続などの適切なインターフェースを介してコンピュータ1(1205)内のエンコーダプロセッサに提供するように構成される。いくつかの実施形態では、アレイロケータは、回転配列情報も提供し、これは、コンピュータ1(1205)においてFOA/HOA信号を回転配列するために提供され得る。
コンピュータ1(1205)のエンコーダプロセッサ1040は、図10に関連して説明したように、マイクロホンアレイ信号及びマイクロホンアレイ位置に基づいて複数の信号セットを処理し、符号化ビットストリーム1006を出力として提供するように構成される。
ビットストリーム1006は、格納および/または送信されてもよく、次に、コンピュータ2(1207)のデコーダプロセッサ1060は、ビットストリーム1006をストレージから受信または取得するように構成される。デコーダプロセッサ1060は、ユーザが装着しているHMD(ヘッドマウントディスプレイ)1231の位置/方向トラッカからリスナーの位置および方向情報を取得することもできる。ビットストリーム1006並びにリスナー位置及び方向情報1230に基づいて、コンピュータ2(1207)のデコーダプロセッサは、バイノーラル空間オーディオ出力信号1232を生成し、適切なオーディオインターフェースを介して、ユーザが装着しているヘッドホン1233で再生されるようにそれらを提供するよう構成される。
いくつかの実施形態では、コンピュータ2(1207)は、コンピュータ1(1205)と同じ装置であるが、典型的な状態では、それらは異なる装置又はコンピュータである。この文脈におけるコンピュータは、デスクトップ/ラップトップコンピュータ、処理クラウド、ゲームコンソール、モバイルデバイス、または本発明の開示に記載される処理を実行することができる任意の他のデバイスを指すことができる。
いくつかの実施形態では、ビットストリーム1006は、MPEG-Iビットストリームである。いくつかの他の実施形態では、任意の適切なビットストリームであってもよい。
上記の実施形態では、指向性オーディオコーディングの空間パラメトリック解析は、適応ビームフォーミング手法に置き換えることができる。適応ビームフォーミング手法は、例えば、Archontis Politis、Sakari Tervo、Ville Pulkki、「COMPASS:アンビソニックサウンドシーンの符号化と多方向パラメタリゼーション」(COMPASS:Coding and Multidirectional Parameterization of Ambisonic Sound Scenes)、IEEE Int. Conf, of Acoustics, Speech, and Signal Processing(ICASSP),2018で概説されたCOMPASSメソッドに基づいてもよい。
このような実施形態では、空間共分散行列CHOA,j(k,n)は、前に定義したようにアンビソニック信号から計算することができるが、利用可能であれば高次アンビソニック(HOA)チャンネルを含む。例えば、信号は次のように表現される。
Figure 2023515968000050
ここで、Nはアンビソニックの次数である。空間共分散行列は、いくつかの実施形態では、固有値分解によって分解することができる。
Figure 2023515968000051
ここで、E(k,n)は、固有ベクトルを含み、V(k,n)は、固有値を含む。その後、V(k,n)の対角線に含まれる順序付き固有値の統計分析に基づいて、拡散または非拡散状態の判定を実行できる。
非拡散状態が検出された場合、順序付き固有値の分布の統計的分析に基づいて、顕著な音源の数S´が推定される。ロバスト推定の場合、音源の数は以下のように制限される。
Figure 2023515968000052
音源の数を推定した後、近似的な到来方向(DOA)を決定する。球面上に一様に配置されたm=1・・・M方向(θm,φm)の高密度グリッドに対して、M=1000~5000の角度の範囲で、空間パワースペクトルが以下のように計算される。
Figure 2023515968000053
ここで、yNは次数Nまでの球面調和値のベクトルで、適切な順序とアンビソニック規則の正規化が行われる。推定されたDOAは、S個の最も高いピークを持つグリッド方向に対応する。
他のいくつかの実施形態では、DOA推定は、特に低アンビソニック次数で、より高い分解能の部分空間法を採用して、近い角度の音源を区別する広い低次ビームの限界を克服することができる。例えば、MUSICを使用することができ、ここで空間スペクトルは以下のように計算される。
Figure 2023515968000054
ここで、Enoise(k,n)はE(k,n)の最後の(N+1)2-S個の順序付き固有ベクトルから形成される。すべての格子点に対してMUSICが実行された後、S個の最も高いピークのピーク検索によってDOAが同様に求められる。
s=1,...,SのDOA(θS,φS)が決定された後、音源ごとの直接対総(DTR)エネルギー比は以下のように決定される。
Figure 2023515968000055
DTRが最も高い音源を主要な音源として選択し、それぞれのパラメータrj,s(k,n)、θS(k,n)、φS(k,n)が、上記のDirAC解析と同様に、メタデータ補間器に渡される。
いくつかのさらなる実施形態では、単一の支配的なDOAおよびDTRを選択する代わりに、いくつかまたはすべての検出されたDOAおよびDTRがメタデータ補間器に渡される。換言すれば、いくつかの実施形態では、時間-周波数タイルごとに、複数の同時方向および比率が存在する。
したがって、前述の実施形態では、時間周波数間隔ごとに1つの同時方向推定を議論しているが、いくつかの実施形態では、時間周波数タイルごとに複数の方向を推定またはその他の方法で決定することができる。
例えば、本明細書に記載されたメタデータ補間原理は、2つ以上の同時方向推定(各時間周波数間隔において)および対応する2つ以上の直接対総エネルギー比についても拡張され得る。この場合、補間メタデータは、2つ以上の方向推定値も含む。
いくつかの実施形態で実施される方法は、例えば、以下の通りであってよい。
1)前述の方法で、関連するすべての方向パラメータ(および、対応する比率)から方向ベクトルを算出する。
2)リスナーに最も近いアレイを決定する。
3)最も近いアレイから,最も長い(つまり、直接対全体比が最も大きい)方向ベクトルを選択する。
4)補間に関わる残りのアレイについて,最も近いアレイの選択されたベクトルとの内積が最大となる方向ベクトルを(各アレイについて1つずつ)選択する。
5)(ステップ3および4の)選択されたベクトルおよび(前述の通り)補間重みに基づいて結合ベクトルを算出し、それに基づいて(前述の通り)方向と比率を求める。
6)上記のステップ3および4で使用するために選択したベクトルデータを破棄する。
7)方向ベクトルが最も近いアレイにまだ存在する場合は、次の方向とそれに対応する比率を決定するために、多数の補間された方向と比率が得られるまで、ステップ3~6を繰り返す。
いくつかの実施形態では、ハンガリアンアルゴリズムなどの最小距離割り当てアルゴリズムが、セット間の最も近いDOAを対にするために使用される。DOAの数はマイクロホン間で異なる可能性があるため、割り当ては、マイクロホンの組の同じ数のDOAの間で発生するかもしれないが、一方で、特定のマイクロホンで割り当てられていない追加のDOAは、他のマイクロホンにおいてゼロのDOAベクトルで補間される可能性がある。このアプローチでは、3つのマイクロホンアレイ全体で検出されたDOAの最大数と同数のDOAを合成段階に渡すことができる。
いくつかの実施形態では、複数の同時到達方向がある場合、図8に示す合成プロセッサ509のターゲット共分散行列決定器805において、ターゲット共分散行列は、複数の直接部分(各方向とその対応する直接対総エネルギー比について)で構築される。それ以外は、合成処理は同じでよい。
いくつかの実施形態では、図5に示すように、信号補間器503は、任意の適切な方法を用いてオーディオ信号を補間するように構成される。例えば、信号を切り替える代わりに、信号は重み係数(w1、w2、及びw3)に基づいて線形補間される。状態によっては、この補間方法が望ましくない櫛形フィルタリングを生じる可能性があるが、品質が向上する場合もある。
いくつかの実施形態では、補間データ508/510、マイクロホンアレイ位置502、及び/又はリスナー位置504は、合成プロセッサ509にも転送される。これらは、例えば、プロトタイプ信号の決定に使用されてもよい(例えば、リスナーがアレイから遠く離れている場合は、信号エネルギーを失わないように、幅の広いパターンを使用する)。
いくつかの実施形態では、前述の実施形態で説明した機能ブロックまたは処理ブロックを、様々な方法で他の機能ブロックまたはさらなる処理ブロックに結合および/または分割することができる。例えば、いくつかの実施形態では、信号補間器503、位置プリプロセッサ505、及びメタデータ補間器507に関連する機能(または処理ステップ)は、合成プロセッサ509内に統合される。いくつかの実施形態では、機能(または処理ステップ)を組み合わせることで、よりコンパクトなコードと効率的な実装が得られる。
いくつかの実施形態において、プロトタイプ信号は、信号補間器503において既に決定されてもよい。そのような実施形態では、リスナーの方向516は、信号補間器503に供給される。
いくつかの実施形態では、目標総エネルギーは、信号補間器503において決定され、合成プロセッサ509に渡される。これらの実施形態において、エネルギー補正は、合成プロセッサ509において(受信したオーディオ信号に基づいて決定された目標エネルギーの代わりに、受信した目標エネルギーを用いて)実行され得るため、補間信号512 S(b,n,i)は、信号補間器503においてエネルギー補正される必要がない場合がある。これは、エネルギー補正が空間合成と同時に実行され得るため、計算の複雑さを軽減する可能性があるため、一部の実用的なシステムでは有益である。さらに、これらの実施形態は、すべての利得を同時に適用することができる(したがって、潜在的な時間的利得平滑化を1回だけ適用することができる)ため、改善されたオーディオ品質を特徴とすることができる。
いくつかの実施形態では、補間重み(w1、w2、およびw3)は、任意の適切なスキームを使用して決定されてもよい。例えば、いくつかの実施形態では、最も近いアレイがより顕著に使用されるように、前述の実施形態が調整されてもよい。
本明細書で説明する実施形態では、信号補間器503は、常に、リスナー位置が内側にあったマイクロホンアレイj1、j2、j3のうちの1つであるように、選択したマイクロホンアレイjselを決定するように構成される。この決定は、場合によっては、リスナーが2つの決定された三角形の端にいる場合、2つのマイクロホンアレイの間で切り替え(switching)が発生する可能性がある。この急激な切り替えを防止するために、いくつかの実施形態では、マイクロホンアレイの選択において閾値が適用されてもよい。例えば、マイクロホンアレイj1、j2、j3のうちのいくつかがjselよりある閾値だけ近い場合にのみ、選択されたマイクロホンアレイjselが変更される。
いくつかの実施形態では、パラメータ補間は、異なる方法の組合せを用いて実行されてもよい。例えば、直接対総エネルギー比を補間するための2つの異なる方法が、上記で提示された。いくつかの実施形態では、これらの方法の組合せが実施されてもよい。例えば、第1の方法(言い換えれば、結合ベクトルの長さ)が閾値以下の値を提供する場合、第1の方法の結果が選択され、あるいは、第2の方法(言い換えれば、元の比率を直接重み付けする)の結果が選択される。閾値は、固定的であっても適応的であってもよい。例えば、いくつかの実施形態では、閾値は、元の比率に関連して決定されてもよい。
上述したいくつかの実施形態では、図10に示すようなエンコーダおよびデコーダが提供される。いくつかの他の実施形態において、空間分析は、デコーダにおいて(少なくともいくつかの周波数において)実行される。これらの実施形態では、オーディオ信号とマイクロホンの位置のみが、エンコーダからデコーダに渡される必要がある。いくつかの実施形態では、いくつかの周波数における空間メタデータも転送される。
図7に示すように、リスナーがマイクロホンアレイの位置に関連する領域の外側にいる場合、リスナーの位置はその領域内に投影され得る。つまり、ユーザがその領域から少し外れたところにいるときは、位置の不一致による方向性の偏りは無視できるが、ユーザがその領域から遠く離れているときは、偏りが大きくなる可能性があるということである。上述したように、実際の状態では、ユーザがアレイから非常に遠くに移動することはほとんどなく(ビデオも再生する必要があるため)、したがって、このような偏りの知覚的な悪影響は、通常、制限される。しかしながら、いくつかの実施形態では、これらの影響は、例えば、ユーザが領域からさらに離れて移動するときに、より周囲の音を示す比率パラメータを修正することによって、さらに緩和することができる。そのような実施形態では、比率パラメータが次に完全なアンビエンスを示す距離(及びそれを超える距離)が存在し得る。したがって、システムは、これらの状態において、予想される誤った方向を再生するのではなく、定位不可能な音として音をレンダリングするように構成される。
いくつかの実施形態では、信号補間器503は、各マイクロホンにおけるサウンドシーンのエネルギーを、第1チャンネルのエネルギーだけを使用するのではなく、高次のものを含むすべてのアンビソニックチャンネルから、以下のように計算することができ、SN3Dアンビソニックチャンネル正規化規則の場合、
Figure 2023515968000056
、または、N3Dアンビソニックチャンネル正規化規則の場合、
Figure 2023515968000057
であり、Nはアンビソニック次数である。
上記の実施形態では、マイクロホンアレイが同じ方向に配置されているか、または同じ方向に変換されている(言い換えれば、各マイクロホンアレイの「X軸」が同じ方向に配置されている)ことを仮定している。ある実施形態では、位置情報に加えて、マイクロホンアレイの方向情報が伝達される。この情報は、様々な方向を考慮し、マイクロホンの方向を「揃える」ために、処理の任意の時点で使用することができる。
図13に関して、コンピュータ、エンコーダプロセッサ、デコーダプロセッサ、または本明細書に記載された機能ブロックのいずれかとして使用され得る例示的な電子デバイスが示されている。デバイスは、任意の適切な電子機器又は装置であってよい。例えばいくつかの実施形態では、装置1400は、モバイルデバイス、ユーザ機器、タブレットコンピュータ、コンピュータ、オーディオ再生装置などである。
いくつかの実施形態では、装置1400は、少なくとも1つのプロセッサ又は中央処理装置1407を備える。プロセッサ1407は、本明細書に記載されるような方法など、様々なプログラムコードを実行するように構成することができる。
いくつかの実施形態では、装置1400は、メモリ1411を備える。いくつかの実施形態では、少なくとも1つのプロセッサ1407が、メモリ1411に結合される。メモリ1411は、任意の適切な記憶手段であってよい。いくつかの実施形態では、メモリ1411は、プロセッサ1407に実装可能なプログラムコードを格納するためのプログラムコード部を具備する。さらに、いくつかの実施形態では、メモリ1411は、データ、例えば、本明細書に記載されるような実施形態に従って処理された又は処理される予定のデータを記憶するための記憶データ部をさらに備えることができる。プログラムコード部内に格納された実装プログラムコード及び記憶データ部内に格納されたデータは、メモリ-プロセッサ結合を介して必要なときにいつでもプロセッサ1407によって取り出すことができる。
いくつかの実施形態では、装置1400は、ユーザインターフェース1405を備える。いくつかの実施形態では、ユーザインターフェース1405は、プロセッサ1407に結合され得る。いくつかの実施形態では、プロセッサ1407は、ユーザインターフェース1405の動作を制御し、ユーザインターフェース1405から入力を受信することができる。いくつかの実施形態では、ユーザインターフェース1405は、ユーザが、例えばキーパッドを介して、装置1400にコマンドを入力することを可能にすることができる。いくつかの実施形態では、ユーザインターフェース1405は、ユーザが装置1400から情報を取得することを可能にすることができる。例えば、ユーザインターフェース1405は、装置1400からの情報をユーザに表示するように構成されたディスプレイを備えてよい。ユーザインターフェース1405は、いくつかの実施形態において、装置1400に情報を入力すること、および装置1400のユーザに対して情報を表示することの両方が可能なタッチスクリーン又はタッチインターフェースで構成され得る。
いくつかの実施形態では、装置1400は、入力/出力ポート1409を備える。いくつかの実施形態では、入力/出力ポート1409は、トランシーバを具備する。そのような実施形態におけるトランシーバは、プロセッサ1407に結合され、例えば、無線通信ネットワークを介して、他の装置又は電子機器との通信を可能にするように構成され得る。トランシーバ又は任意の適切なトランシーバ又は送信機及び/又は受信機手段は、いくつかの実施形態において、有線又は有線結合を介して他の電子デバイス又は装置と通信するように構成することができる。
トランシーバは、任意の適切な既知の通信プロトコルによって、別の装置と通信することができる。例えば、いくつかの実施形態では、トランシーバは、適切なユニバーサル移動通信システム(UMTS)プロトコル、例えば、IEEE802.Xなどの無線ローカルエリアネットワーク(WLAN)プロトコル、ブルートゥース(登録商標)などの適切な短距離無線周波数通信プロトコル、または赤外線データ通信経路(IRDA)を使用することができる。
トランシーバ入力/出力ポート1409は、オーディオ信号、ビットストリームを送信/受信し、いくつかの実施形態では、適切なコードを実行するプロセッサ1407を使用することによって、上述のような動作及び方法を実行するように構成されてもよい。
一般に、本発明の様々な実施形態は、ハードウェアまたは専用回路、ソフトウェア、ロジック、またはそれらの任意の組み合わせで実装されてもよい。例えば、いくつかの態様はハードウェアで実装されてもよく、他の態様は、コントローラ、マイクロプロセッサ、または他のコンピューティングデバイスによって実行され得るファームウェアまたはソフトウェアで実装されてもよいが、本発明はこれらに限定されない。本発明の様々な態様は、ブロック図、フローチャートとして、または他の何らかの図形的表現を用いて図示および説明され得るが、本明細書に記載されるこれらのブロック、装置、システム、技術、または方法は、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、専用回路または論理、汎用ハードウェアまたはコントローラもしくは他のコンピューティングデバイス、またはこれらの何らかの組み合わせで実施されてよいことは十分に理解されよう。
この発明の実施形態は、プロセッサエンティティなどのモバイルデバイスのデータプロセッサによって実行可能なコンピュータソフトウェアによって、またはハードウェアによって、またはソフトウェアとハードウェアの組み合わせによって実装されてもよい。さらに、この点に関して、図のような論理フローの任意のブロックは、プログラムステップ、または相互接続された論理回路、ブロックおよび機能、またはプログラムステップと論理回路、ブロックおよび機能の組み合わせを表すことができることに留意されたい。ソフトウェアは、メモリチップ、またはプロセッサ内に実装されたメモリブロック、磁気媒体、および光学媒体などの物理媒体に格納されてもよい。
メモリは、ローカルな技術環境に適した任意のタイプであってよく、半導体ベースのメモリデバイス、磁気メモリデバイス及びシステム、光学メモリデバイス及びシステム、固定メモリ、及び取り外し可能メモリなどの任意の適切なデータ記憶技術を使用して実装されてもよい。データプロセッサは、ローカルな技術環境に適した任意のタイプであってよく、非限定的な例として、汎用コンピュータ、専用コンピュータ、マイクロプロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、ゲートレベル回路及びマルチコアプロセッサアーキテクチャに基づくプロセッサのうちの1つ以上を含んでもよい。
本発明の実施形態は、集積回路モジュールなどの様々なコンポーネントにおいて実施することができる。集積回路の設計は、概して高度に自動化されたプロセスである。論理レベルの設計を、半導体基板上にエッチングして形成するのに適した半導体回路設計に変換するために、複雑で強力なソフトウェアツールが利用可能である。
カリフォルニア州マウンテンビューのシノプシス社や、カリフォルニア州サンノゼのケイデンスデザイン社などのプログラムは、確立された設計ルールや、あらかじめ保存された設計モジュールのライブラリを使って、半導体チップ上の導体の配線や部品の配置を自動的に行う。半導体回路の設計が完了したら、設計結果を標準化された電子フォーマット(Opus、GDSIIなど)で半導体製造施設または製造のための「ファブ」に送信することができる。
上述の説明は、例示的かつ非限定的な例として、本発明の例示的な実施形態の完全かつ有益な説明を提供したものである。しかしながら、添付の図面および添付の特許請求の範囲と併せて読むと、上述の説明を考慮して、関連技術の当業者には様々な変更および適応が明らかになるであろう。しかしながら、本発明の教示のそのような類似の修正はすべて、添付の特許請求の範囲で定義される本発明の範囲内に依然として含まれる。

Claims (25)

  1. 2つ以上のオーディオ信号セットを取得し、各オーディオ信号セットは、位置に関連付けられ、
    前記オーディオ信号セットの少なくとも2つについて、少なくとも1つのパラメータ値を取得し、
    前記オーディオ信号セットの前記少なくとも2つに少なくとも関連付けられた前記位置を取得し、
    リスナー位置を取得し、
    前記オーディオ信号セットの前記少なくとも2つに少なくとも関連付けられた前記位置および前記リスナー位置に基づいて、前記2つ以上のオーディオ信号セットの少なくとも1つからの少なくとも1つのオーディオ信号に基づいて、少なくとも1つのオーディオ信号を生成し、
    前記オーディオ信号セットの前記少なくとも2つについて取得された前記少なくとも1つのパラメータ値、前記オーディオ信号セットの前記少なくとも2つに関連付けられた前記位置、および前記リスナー位置に基づいて、少なくとも1つの修正されたパラメータ値を生成し、
    前記少なくとも1つの修正されたパラメータ値に基づいて前記少なくとも1つのオーディオ信号を処理し、空間オーディオ出力を生成する、
    ように構成された手段を含む装置。
  2. 2つ以上のオーディオ信号セットを取得するように構成された前記手段は、マイクロホン装置から前記2つ以上のオーディオ信号セットを取得するように構成され、各マイクロホン装置は、それぞれの位置にあり、1つ以上のマイクロホンを備える、請求項1に記載の装置。
  3. 各オーディオ信号セットは方向と関連付けられ、前記手段は、前記2つ以上のオーディオ信号セットの前記方向を取得するようにさらに構成され、生成された前記少なくとも1つのオーディオ信号は、前記2つ以上のオーディオ信号セットと関連付けられた前記方向にさらに基づき、前記少なくとも1つの修正されたパラメータ値は、前記2つ以上のオーディオ信号セットと関連付けられた前記方向にさらに基づく、請求項1または2に記載の装置。
  4. 前記手段は、リスナーの方向を取得するようにさらに構成され、前記少なくとも1つの修正されたパラメータ値は、前記リスナーの方向にさらに基づく、請求項1乃至3のいずれか一項に記載の装置。
  5. 前記少なくとも1つの修正されたパラメータ値に基づいて、前記少なくとも1つのオーディオ信号を処理し、空間オーディオ出力を生成するように構成された前記手段は、前記リスナーの方向にさらに基づいて、前記少なくとも1つのオーディオ信号を処理するようにさらに構成されている、請求項4に記載の装置。
  6. 前記手段は、前記オーディオ信号セットの前記少なくとも2つに関連付けられた前記位置および前記リスナー位置に基づいて制御パラメータを取得するようにさらに構成され、前記オーディオ信号セットの前記少なくとも2つに関連付けられた前記位置および前記リスナー位置に基づいて、前記2つ以上のオーディオ信号セットの少なくとも1つからの少なくとも1つのオーディオ信号に基づいて、少なくとも1つのオーディオ信号を生成するように構成された前記手段は、前記制御パラメータに基づいて制御される、請求項1乃至5のいずれか一項に記載の装置。
  7. 前記少なくとも1つの修正されたパラメータ値を生成するように構成された前記手段は、前記制御パラメータに基づいて制御される、請求項6に記載の装置。
  8. 制御パラメータを取得するように構成された前記手段は、
    前記リスナー位置が配置された前記オーディオ信号セットの少なくとも3つを識別し、前記オーディオ信号セットの位置および前記リスナー位置に基づいて、前記オーディオ信号セットの少なくとも3つに関連付けられた重みを生成し、
    あるいは、前記リスナー位置に最も近い前記オーディオ信号セットの2つを識別し、前記オーディオ信号セットの位置および前記オーディオ信号セットの前記2つの間の線からの前記リスナー位置の垂直投影に基づいて、前記オーディオ信号セットの前記2つに関連付けられた重みを生成する、
    ように構成されている、請求項6または7に記載の装置。
  9. 請求項6に従属するとき、少なくとも1つのオーディオ信号を生成するように構成された前記手段は、
    前記重みに基づいて、2つ以上のオーディオ信号セットからの2つ以上のオーディオ信号を結合することと、
    前記2つ以上のオーディオ信号セットのうちのどれが前記リスナー位置に最も近いかに基づいて、前記2つ以上のオーディオ信号セットのうちの1つから1つ以上のオーディオ信号を選択することと、
    前記2つ以上のオーディオ信号セットのうちのどれが前記リスナー位置に最も近いか、および、さらなる切り替え閾値に基づいて、前記2つ以上のオーディオ信号セットのうちの1つから1つ以上のオーディオ信号を選択することと、
    のうちの1つを実行するように構成される、請求項8に記載の装置。
  10. 請求項7に従属する場合、前記少なくとも1つの修正されたパラメータ値を生成するように構成された前記手段は、前記2つ以上のオーディオ信号セットのうちの少なくとも2つについて、取得された前記少なくとも1つのパラメータ値を前記重みに基づいて結合するように構成されている、請求項8に記載の装置。
  11. 前記少なくとも1つの修正されたパラメータ値に基づいて前記少なくとも1つのオーディオ信号を処理し、空間オーディオ出力を生成するように構成された前記手段は、
    ヘッドホンおよび/またはイヤホン用の2つのオーディオ信号を含むバイノーラルオーディオ出力、および、
    マルチチャンネルスピーカーセット用の少なくとも2つのオーディオ信号を含むマルチチャンネルオーディオ出力、
    の少なくとも1つを生成するように構成されている、請求項1乃至10のいずれか一項に記載の装置。
  12. 少なくとも1つのパラメータ値は、
    少なくとも1つの方向値、
    少なくとも1つの方向値に関連付けられた少なくとも1つの直接対全体比、
    少なくとも1つの方向値に関連付けられた少なくとも1つの拡散コヒーレンス、
    少なくとも1つの方向値に関連付けられた少なくとも1つの距離、
    少なくとも1つのサラウンドコヒーレンス、
    少なくとも1つの拡散対全体比、および、
    少なくとも1つの余剰対全体比、
    のうちの少なくとも1つを含む、請求項1乃至11のいずれか一項に記載の装置。
  13. 前記オーディオ信号セットの少なくとも2つは、少なくとも2つのオーディオ信号を含み、前記少なくとも1つのパラメータ値を取得するように構成された前記手段は、前記2つ以上のオーディオ信号セットからの前記2つ以上のオーディオ信号を空間的に解析し、前記少なくとも1つのパラメータ値を決定するように構成されている、請求項1乃至12のいずれか一項に記載の装置。
  14. 前記少なくとも1つのパラメータ値を取得するように構成された前記手段は、前記オーディオ信号セットの少なくとも2つについて、前記少なくとも1つのパラメータ値を受信または取得するように構成されている、請求項1乃至12のいずれか一項に記載の装置。
  15. 少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つのメモリと、を備える装置であって、前記少なくとも1つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサを用いて、
    2つ以上のオーディオ信号セットを取得することであって、各オーディオ信号セットは、位置に関連付けられている、取得することと、
    前記オーディオ信号セットの少なくとも2つについて少なくとも1つのパラメータ値を取得することと、
    前記オーディオ信号セットの前記少なくとも2つに少なくとも関連付けられた前記位置を取得することと、
    リスナー位置を取得することと、
    前記オーディオ信号セットの前記少なくとも2つに少なくとも関連付けられた前記位置および前記リスナー位置に基づいて、前記2つ以上のオーディオ信号セットの少なくとも1つからの少なくとも1つのオーディオ信号に基づいて、少なくとも1つのオーディオ信号を生成することと、
    前記オーディオ信号セットの前記少なくとも2つについて、取得された前記少なくとも1つのパラメータ値、前記オーディオ信号セットの前記少なくとも2つに関連付けられた前記位置、および前記リスナー位置に基づいて、少なくとも1つの修正されたパラメータ値を生成することと、
    前記少なくとも1つの修正されたパラメータ値に基づいて前記少なくとも1つのオーディオ信号を処理し、空間オーディオ出力を生成することと、
    を前記装置に少なくとも実行させるように構成されている、装置。
  16. 2つ以上のオーディオ信号セットを取得することであって、各オーディオ信号セットは位置に関連付けられている、取得することと、
    前記オーディオ信号セットの少なくとも2つについて、少なくとも1つのパラメータ値を取得することと、
    前記オーディオ信号セットの前記少なくとも2つに少なくとも関連付けられた前記位置を取得することと、
    リスナー位置を取得することと、
    前記オーディオ信号セットの前記少なくとも2つに少なくとも関連付けられた前記位置および前記リスナー位置に基づいて、前記2つ以上のオーディオ信号セットの少なくとも1つからの少なくとも1つのオーディオ信号に基づいて、少なくとも1つのオーディオ信号を生成することと、
    前記オーディオ信号セットの前記少なくとも2つについて、取得された前記少なくとも1つのパラメータ値、前記オーディオ信号セットの前記少なくとも2つに関連付けられた前記位置、および前記リスナー位置に基づいて、少なくとも1つの修正されたパラメータ値を生成することと、
    前記少なくとも1つの修正されたパラメータ値に基づいて前記少なくとも1つのオーディオ信号を処理し、空間オーディオ出力を生成することと、
    を含む、装置のための方法。
  17. 2つ以上のオーディオ信号セットを取得することは、マイクロホン装置から前記2つ以上のオーディオ信号セットを取得することを含み、各マイクロホン装置は、それぞれの位置にあり、1つ以上のマイクロホンを備える、請求項16に記載の方法。
  18. 各オーディオ信号セットは、方向と関連付けられ、前記方法は、前記2つ以上のオーディオ信号セットの前記方向を取得することをさらに含み、生成された前記少なくとも1つのオーディオ信号は、前記2つ以上のオーディオ信号セットと関連付けられた前記方向にさらに基づき、前記少なくとも1つの修正されたパラメータ値は、前記2つ以上のオーディオ信号セットと関連付けられた前記方向にさらに基づく、請求項16または17に記載の方法。
  19. リスナーの方向を取得することをさらに含み、前記少なくとも1つの修正されたパラメータ値は、前記リスナーの方向にさらに基づく、請求項16乃至18のいずれか一項に記載の方法。
  20. 前記少なくとも1つの修正されたパラメータ値に基づいて、前記少なくとも1つのオーディオ信号を処理し、前記空間オーディオ出力を生成することは、前記リスナーの方向にさらに基づいて、前記少なくとも1つのオーディオ信号を処理することを含む、請求項19に記載の方法。
  21. 前記オーディオ信号セットの前記少なくとも2つに関連付けられた前記位置および前記リスナー位置に基づいて、制御パラメータを取得することをさらに含み、前記オーディオ信号セットの前記少なくとも2つに関連付けられた前記位置および前記リスナー位置に基づいて、前記2つ以上のオーディオ信号セットの少なくとも1つからの少なくとも1つのオーディオ信号に基づいて、少なくとも1つのオーディオ信号を生成することが、前記制御パラメータに基づいて制御される、請求項16乃至20のいずれか一項に記載の方法。
  22. 前記少なくとも1つの修正されたパラメータ値を生成することは、前記制御パラメータに基づいて制御される、請求項21に記載の方法。
  23. 前記少なくとも1つの修正されたパラメータ値に基づいて、前記少なくとも1つのオーディオ信号を処理し、空間オーディオ出力を生成することは、
    ヘッドホンおよび/またはイヤホン用の2つのオーディオ信号を含むバイノーラルオーディオ出力、および、
    マルチチャンネルスピーカーセット用の少なくとも2つのオーディオ信号を含むマルチチャンネルオーディオ出力、
    のうちの少なくとも1つを生成することを含む、請求項16乃至22のいずれか一項に記載の方法。
  24. 少なくとも1つのパラメータ値は、
    少なくとも1つの方向値、
    少なくとも1つの方向値に関連付けられた少なくとも1つの直接対全体比、
    少なくとも1つの方向値に関連付けられた少なくとも1つの拡散コヒーレンス、
    少なくとも1つの方向値に関連付けられた少なくとも1つの距離、
    少なくとも1つのサラウンドコヒーレンス、
    少なくとも1つの拡散対全体比、および、
    少なくとも1つの剰余対全体比、
    のうちの少なくとも1つを含む、請求項16乃至23のいずれ一項に記載の方法。
  25. 前記オーディオ信号セットの少なくとも2つは、少なくとも2つのオーディオ信号を含み、前記少なくとも1つのパラメータ値を取得することは、前記2つ以上のオーディオ信号セットからの前記2つ以上のオーディオ信号を空間的に解析し、前記少なくとも1つのパラメータ値を決定することを含む、請求項16乃至24のいずれか一項に記載の方法。
JP2022551399A 2020-02-26 2021-02-03 空間メタデータ補間によるオーディオレンダリング Pending JP2023515968A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB2002710.8A GB2592388A (en) 2020-02-26 2020-02-26 Audio rendering with spatial metadata interpolation
GB2002710.8 2020-02-26
PCT/FI2021/050072 WO2021170900A1 (en) 2020-02-26 2021-02-03 Audio rendering with spatial metadata interpolation

Publications (1)

Publication Number Publication Date
JP2023515968A true JP2023515968A (ja) 2023-04-17

Family

ID=70108231

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022551399A Pending JP2023515968A (ja) 2020-02-26 2021-02-03 空間メタデータ補間によるオーディオレンダリング

Country Status (6)

Country Link
US (1) US20230079683A1 (ja)
EP (1) EP4085652A4 (ja)
JP (1) JP2023515968A (ja)
CN (1) CN115176486A (ja)
GB (1) GB2592388A (ja)
WO (1) WO2021170900A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11945123B2 (en) * 2020-04-28 2024-04-02 Altec Industries, Inc. Head mounted display for remote operation of machinery
GB2608847A (en) * 2021-07-14 2023-01-18 Nokia Technologies Oy A method and apparatus for AR rendering adaption
EP4164255A1 (en) * 2021-10-08 2023-04-12 Nokia Technologies Oy 6dof rendering of microphone-array captured audio for locations outside the microphone-arrays
GB2611800A (en) * 2021-10-15 2023-04-19 Nokia Technologies Oy A method and apparatus for efficient delivery of edge based rendering of 6DOF MPEG-I immersive audio
GB2615323A (en) * 2022-02-03 2023-08-09 Nokia Technologies Oy Apparatus, methods and computer programs for enabling rendering of spatial audio
CN116437284A (zh) * 2023-06-13 2023-07-14 荣耀终端有限公司 空间音频合成方法、电子设备及计算机可读存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2554446A (en) * 2016-09-28 2018-04-04 Nokia Technologies Oy Spatial audio signal format generation from a microphone array using adaptive capture
WO2018064528A1 (en) * 2016-09-29 2018-04-05 The Trustees Of Princeton University Ambisonic navigation of sound fields from an array of microphones
GB2556093A (en) * 2016-11-18 2018-05-23 Nokia Technologies Oy Analysis of spatial metadata from multi-microphones having asymmetric geometry in devices
GB201718341D0 (en) 2017-11-06 2017-12-20 Nokia Technologies Oy Determination of targeted spatial audio parameters and associated spatial audio playback
US10542368B2 (en) * 2018-03-27 2020-01-21 Nokia Technologies Oy Audio content modification for playback audio
GB2572368A (en) 2018-03-27 2019-10-02 Nokia Technologies Oy Spatial audio capture
US10924876B2 (en) * 2018-07-18 2021-02-16 Qualcomm Incorporated Interpolating audio streams
GB201818959D0 (en) * 2018-11-21 2019-01-09 Nokia Technologies Oy Ambience audio representation and associated rendering

Also Published As

Publication number Publication date
CN115176486A (zh) 2022-10-11
GB2592388A (en) 2021-09-01
GB202002710D0 (en) 2020-04-08
US20230079683A1 (en) 2023-03-16
EP4085652A1 (en) 2022-11-09
EP4085652A4 (en) 2023-07-19
WO2021170900A1 (en) 2021-09-02

Similar Documents

Publication Publication Date Title
JP2023515968A (ja) 空間メタデータ補間によるオーディオレンダリング
JP2022153626A (ja) マルチポイント音場記述を使用して拡張音場記述または修正音場記述を生成するためのコンセプト
US11863962B2 (en) Concept for generating an enhanced sound-field description or a modified sound field description using a multi-layer description
CN113597776B (zh) 参数化音频中的风噪声降低
CN112189348B (zh) 空间音频捕获的装置和方法
EP3643084A1 (en) Audio distance estimation for spatial audio processing
EP4032324A1 (en) Direction estimation enhancement for parametric spatial audio capture using broadband estimates
US11483669B2 (en) Spatial audio parameters
US20230110257A1 (en) 6DOF Rendering of Microphone-Array Captured Audio For Locations Outside The Microphone-Arrays
WO2022136725A1 (en) Audio rendering with spatial metadata interpolation and source position information
EP4292300A1 (en) Interactive audio rendering of a spatial stream
CN112133316A (zh) 空间音频表示和渲染
US20230362537A1 (en) Parametric Spatial Audio Rendering with Near-Field Effect
WO2024115045A1 (en) Binaural audio rendering of spatial audio

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221024

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221024

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240109

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20240409