JP2022062282A - 空間オーディオシステムにおける利得制御 - Google Patents

空間オーディオシステムにおける利得制御 Download PDF

Info

Publication number
JP2022062282A
JP2022062282A JP2022024358A JP2022024358A JP2022062282A JP 2022062282 A JP2022062282 A JP 2022062282A JP 2022024358 A JP2022024358 A JP 2022024358A JP 2022024358 A JP2022024358 A JP 2022024358A JP 2022062282 A JP2022062282 A JP 2022062282A
Authority
JP
Japan
Prior art keywords
orientation
sound source
audio signal
level
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2022024358A
Other languages
English (en)
Inventor
ヨーマ マキネン
Maekinen Jorma
ミッコ タンミ
Tammi Mikko
ミッコ・ヴィッレ ライティネン
Laitinen Mikko-Ville
ユッシ ヴィロライネン
Virolainen Jussi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Technologies Oy
Original Assignee
Nokia Technologies Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Technologies Oy filed Critical Nokia Technologies Oy
Publication of JP2022062282A publication Critical patent/JP2022062282A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control
    • H03G3/22Automatic control in amplifiers having discharge tubes
    • H03G3/24Control dependent upon ambient noise level or sound level
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/22Arrangements for obtaining desired frequency or directional characteristics for obtaining desired frequency characteristic only 
    • H04R1/28Transducer mountings or enclosures modified by provision of mechanical or acoustic impedances, e.g. resonator, damping means
    • H04R1/2807Enclosures comprising vibrating or resonating arrangements
    • H04R1/2811Enclosures comprising vibrating or resonating arrangements for loudspeaker transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • G10H2210/265Acoustic effect simulation, i.e. volume, spatial, resonance or reverberation effects added to a musical sound, usually by appropriate filtering or delays
    • G10H2210/295Spatial effects, musical uses of multiple audio channels, e.g. stereo
    • G10H2210/305Source positioning in a soundscape, e.g. instrument positioning on a virtual soundstage, stereo panning or related delay or reverberation changes; Changing the stereo width of a musical source
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Abstract

【課題】入力の複雑性と、さらなる遅延をもたらさないことの両方を考慮して利得制御を適用可能にする装置及び方法を提供する。【解決手段】プロセッサ兼レンダラ100は、基準位置に対して少なくとも1つの音源の位置を設け、音源に対応付けられた入力オーディオ信号を分析し、入力オーディオ信号および基準位置に対する音源の位置に基づいて、利得値を決定し、1つの入力オーディオ信号と、方向伝達関数対と、1つの利得値と、基準位置に対する音源の位置に基づいて、出力チャネルを合成する。【選択図】図1b

Description

本願は、頭部追跡入力を利用したオーディオシステムにおいて、利得制御を実現する装置および方法に関する。本発明はさらに、オーディオ信号の空間的再生を実現可能とするべく、頭部追跡入力を利用した空間オーディオシステムにおいて、利得制御を実現する装置および方法に関するが、これに限定されるものではない。
背景
空間場において、多数の信号源からオーディオ信号を取得し、提供するには、莫大な処理労力が伴う。例えば、劇場や講堂等の音響環境における話し手や演者のようなオーディオ信号源からのキャプチャ、ミキシングを実行して、聴き手に届け、効果的な音響空間を作り出すのに必要な処理は並大抵ではない。
一般的に用いられているシステムでは、近接または外部マイクが利用される。例えば、ラべリアマイクをユーザに装着したり、オーディオ信号を取得するため、ブームポールに取り付けたマイクを話し手、または空間オーディオ信号外のその他の信号源に近付けたりすることが行われている。これら信号は、マイクアレイから取得された空間(あるいは環境または音響場)オーディオ信号とミキシングされて、決定されたユーザからの方向入力に基づいて、ユーザに提供されうる。
録音状況に応じて、取得されるオーディオコンテンツのレベルやダイナミクスは大いに変動する。典型的には、遠くまたは音の小さな音源からの聴き取りを容易にするためには、レンダリングまたはミキシングされたオーディオ信号ヘッドルーム、すなわちオーディオ信号が、クリッピングにより再生システムまたはオーディオ信号を損傷することなく一時的に「最大レベル」を超越しうる量を最小限に抑えるべきである。これは、音を聴く環境で大きい騒音や、ヘッドホンやスピーカ出力に関する音圧制限を伴う、携帯型プレーヤに関して特に重要である。
典型的には、頭部追跡システムや、ヘッドホンを利用して音を聴いているユーザは、その頭部の動きに応じて動くミキシングされたオーディオ信号または音景が、バイノーラル(binaural)形式にレンダリングされる。すなわち、音を聴くユーザの位置が、レンダリングされた(バイノーラル)オーディオ信号のレベルに影響を及ぼす(一方で、典型的には向きのみが考慮される)。例えば、耳が直接音源に向いているため高周波数が増幅されるか、耳が音源を向いていないため高周波数が減衰するかにより、出力レベルが変化しうる。オーディオ信号におけるこの向きまたは位置の変化に対応可能として、クリッピングを防止するためには、オーディオコンテンツにさらなるヘッドルームが必要となるが、これは望ましくない。
さらに、オーディオ信号の「音量」を調整するための従来の自動利得制御(Automatic Gain Control:AGC)およびダイナミックレンジ圧縮(Dynamic Range Compression:DRC)アルゴリズムでは、オーディオ信号を処理、出力する前に、遅延をかける必要がある。これは頭部追跡入力を利用した音景のレンダリングには不都合である。音景の動きは、時間遅延を感じさせずに頭部の動きに準じるのが理想である。さもなければ、空間オーディオ品質が極めて低く知覚されてしまうのである。したがって、レンダリングされたオーディオ信号に、知覚可能な遅延をもたらすようなレベル制御関数は適用できない。
したがって、オーディオシステムにおいて、入力の複雑性と、さらなる遅延をもたらさないことの両方を考慮して利得制御を適用可能にする手法の開発が望まれている。
摘要
本願は、聴き手の位置が、合成されたオーディオのレベルに影響しうる、空間オーディオ再生システムにおける利得制御に関する。利得制御は、利得制御関数に遅延を伴うことなく合成されたオーディオが、位置の変化に反応できるようにするものである。これは、音源と聴き手の位置についての(推定された、または既知の)情報と、入力の特徴、さらに、空間オーディオ再生システムを利用してレンダリングされたバイノーラル出力信号のレベルを推定し、利得を適用することで実現された。
第1の態様によると装置が提供され、該装置は、基準位置に対して少なくとも1つの音源の位置を設け、前記少なくとも1つの音源に対応付けられた少なくとも1つの入力オーディオ信号を分析し、前記少なくとも1つの入力オーディオ信号および前記基準位置に対する前記少なくとも1つの音源の位置に基づいて、少なくとも1つの利得値を決定し、前記少なくとも1つの入力オーディオ信号と、方向伝達関数対と、前記少なくとも1つの利得値と、前記基準位置に対する前記少なくとも1つの音源の位置に基づいて、少なくとも2つの出力チャネルを合成するように構成されたプロセッサを備える。
前記基準位置に対して前記少なくとも1つの音源の位置を設けるように構成された前記プロセッサは、少なくとも2つのマイクオーディオ信号を分析し、前記基準位置に対する前記音源の位置を決定するように構成されてもよい。
前記基準位置に対して前記少なくとも1つの音源の位置を設けるように構成された前記プロセッサは、前記少なくとも1つの入力オーディオ信号に対応付けられたメタデータから、前記基準位置に対する前記音源の位置を取得するように構成されてもよい。
前記少なくとも1つの入力信号に対応付けられた前記メタデータは、ある周波数帯域に対する前記メタデータの方向パラメータを含んでもよい。
前記少なくとも1つの音源に対応付けられた前記少なくとも1つの入力オーディオ信号を分析するように構成された前記プロセッサは、少なくとも1つの入力オーディオ信号レベルを決定するように構成されてもよく、前記少なくとも1つの利得値は、前記少なくとも1つの入力オーディオ信号レベルおよび前記基準位置に対する前記少なくとも1つの音源の位置に基づいて決定されてもよい。
前記プロセッサは、前記基準位置に対する追跡部の位置および/または向きを決定するようにさらに構成されてもよい。
前記プロセッサは、前記少なくとも1つの音源と前記追跡部との間の位置および/または向きの差に基づいて、レベル制御利得を決定するようにさらに構成されてもよい。
前記少なくとも1つの音源と前記追跡部との間の位置および/または向きの差に基づいて、レベル制御利得を決定するように構成される前記プロセッサは、前記少なくとも1つの入力オーディオ信号レベルに基づいて、少なくとも1つのレベル制御利得関数を決定し、前記少なくとも1つのレベル制御利得関数に適用される、前記少なくとも1つの音源と前記追跡部との間の位置および/または向きの差に基づいて、前記レベル制御利得を決定してもよい。
前記プロセッサは、前記入力オーディオ信号と、前記方向伝達関数対と、前記少なくとも1つのレベル制御利得値と、前記少なくとも1つの音源と前記追跡部との位置および/または向きの差に基づいて、前記少なくとも2つの出力チャネルを合成するように構成されてもよい。
前記追跡部の前記位置および/または向きを決定するように構成された前記プロセッサは、デジタルコンパスからの方向、ジャイロスコープからの方向、ビーコン測位システムからの方向、前記位置が未来の実際の追跡部位置を推定したものとなるように慣性および質量でモデル化された方向、の内の少なくとも1つを受信するように構成されてもよい。
前記少なくとも1つの音源と前記追跡部との間の位置および/または向きの差に基づいて、前記レベル制御利得を決定するように構成されたプロセッサは、前記少なくとも1つの音源と前記追跡部との間の位置および/または向きの差に基づいて、前記入力オーディオ信号に対応付けられた第1の周波数帯域に対する、第1の周波数帯域用レベル制御利得を決定し、前記少なくとも1つの音源と前記追跡部との間の位置および/または向きの差に基づいて、前記入力オーディオ信号に対応付けられた第2の周波数帯域に対する、第2の周波数帯域用レベル制御利得を決定するように構成されてもよい。
前記少なくとも1つの音源と前記追跡部との間の位置および/または向きの差に基づいて、前記レベル制御利得を決定するように構成されたプロセッサは、前記少なくとも1つの音源と前記追跡部との間の位置および/または向きの差に基づいて、第1の出力チャネルに対する、第1の出力チャネル用レベル制御利得を決定し、前記少なくとも1つの音源と前記追跡部との間の位置および/または向きの差に基づいて、第2の出力チャネルに対する、第2の出力チャネル用レベル制御利得を決定するように構成されてもよい。
前記入力オーディオ信号と、前記方向伝達関数対と、前記少なくとも1つのレベル制御利得値と、前記少なくとも1つの音源と前記追跡部との間の位置および/または向きの差に基づいて、前記少なくとも2つの出力チャネルを合成するように構成された前記プロセッサは、前記入力オーディオ信号への、前記少なくとも1つの音源と前記追跡部との間の位置および/または向きの差に基づく第1の頭部伝達関数と、モデル化された左耳位置の組合せに、左レベル制御利得値をかけることで、前記少なくとも2つの出力チャネルの左出力チャネルオーディオ信号を生成し、前記入力オーディオ信号への、前記少なくとも1つの音源と前記追跡部との間の位置および/または向きの差に基づく第2の頭部伝達関数と、モデル化された右耳位置の組合せに、右レベル制御利得値をかけることで、前記少なくとも2つの出力チャネルの右出力チャネルオーディオ信号を生成するように構成されてもよい。
前記追跡部は、前記追跡部に対応付けられた方向を生成するように構成されたヘッドバンドを備え、前記方向はユーザの聴き取り方向に対応付けられてもよい。
前記プロセッサは、出力信号値の範囲が定義されたパルス符号変調方式のダイナミックレンジに含まれるように、前記少なくとも2つの出力チャネルの出力信号値を制限するようにさらに構成されてもよい。
前記少なくとも2つの出力チャネルは、オーバヘッドが最小限に抑えられていてもよい。
前記基準位置は、少なくとも1つの空間的に取得される音源に対する原点位置および/または向きと、カメラに対する原点位置および/または向きと、前記少なくとも1つの音源が存在する音場面に対する原点位置および/または向きと、の内の少なくとも1つであってもよい。
第2の態様によると方法が提供され、該方法は、基準位置に対して少なくとも1つの音源の位置を設けることと、前記少なくとも1つの音源に対応付けられた少なくとも1つの入力オーディオ信号を分析し、前記少なくとも1つの入力オーディオ信号および前記基準位置に対する前記少なくとも1つの音源の位置に基づいて、少なくとも1つの利得値を決定することと、前記少なくとも1つの入力オーディオ信号と、方向伝達関数対と、前記少なくとも1つの利得値と、前記基準位置に対する前記少なくとも1つの音源の位置に基づいて、少なくとも2つの出力チャネルを合成することと、を含む。
前記基準位置に対して前記少なくとも1つの音源の位置を設けることは、少なくとも2つのマイクオーディオ信号を分析し、前記基準位置に対する前記音源の位置を決定することを含んでもよい。
前記基準位置に対して前記少なくとも1つの音源の位置を設けることは、前記少なくとも1つの入力オーディオ信号に対応付けられたメタデータから、前記基準位置に対する前記音源の位置を取得することを含んでもよい。
前記少なくとも1つの入力信号に対応付けられた前記メタデータは、ある周波数帯域に対する前記メタデータの方向パラメータを含んでもよい。
前記少なくとも1つの音源に対応付けられた前記少なくとも1つの入力オーディオ信号を分析することは、少なくとも1つの入力オーディオ信号レベルを決定することを含んでもよく、前記少なくとも1つの利得値を決定することは、前記少なくとも1つの入力オーディオ信号レベルおよび前記基準位置に対する前記少なくとも1つの音源の位置に基づいて、前記少なくとも1つの利得値を決定することを含んでもよい。
前記方法は、前記基準位置に対する追跡部の位置および/または向きを決定することをさらに含んでもよい。
前記方法は、前記少なくとも1つの音源と前記追跡部との間の位置および/または向きの差に基づいて、レベル制御利得を決定することをさらに含んでもよい。
前記少なくとも1つの音源と前記追跡部との間の位置および/または向きの差に基づいて、前記レベル制御利得を決定することは、前記少なくとも1つの入力オーディオ信号レベルに基づいて、少なくとも1つのレベル制御利得関数を決定することと、前記少なくとも1つのレベル制御利得関数に適用される、前記少なくとも1つの音源と前記追跡部との間の位置および/または向きの差に基づいて、前記レベル制御利得を決定することと、を含んでもよい。
前記方法は、前記入力オーディオ信号と、前記方向伝達関数対と、前記少なくとも1つのレベル制御利得値と、前記少なくとも1つの音源と前記追跡部との位置および/または向きの差に基づいて、前記少なくとも2つの出力チャネルを合成することをさらに含んでもよい。
前記追跡部の位置および/または向きを決定することは、デジタルコンパスからの方向、ジャイロスコープからの方向、ビーコン測位システムからの方向、前記位置が未来の実際の追跡部位置を推定したものとなるように慣性および質量でモデル化された方向、の内の少なくとも1つを受信することを含んでもよい。
前記少なくとも1つの音源と前記追跡部との間の位置および/または向きの差に基づいて、前記レベル制御利得を決定することは、前記少なくとも1つの音源と前記追跡部との間の位置および/または向きの差に基づいて、前記入力オーディオ信号に対応付けられた第1の周波数帯域に対する、第1の周波数帯域用レベル制御利得を決定することと、前記少なくとも1つの音源と前記追跡部との間の位置および/または向きの差に基づいて、前記入力オーディオ信号に対応付けられた第2の周波数帯域に対する、第2の周波数帯域用レベル制御利得を決定すること、を含んでもよい。
前記少なくとも1つの音源と前記追跡部との間の位置および/または向きの差に基づいて、前記レベル制御利得を決定することは、前記少なくとも1つの音源と前記追跡部との間の位置および/または向きの差に基づいて、第1の出力チャネルに対する、第1の出力チャネル用レベル制御利得を決定することと、前記少なくとも1つの音源と前記追跡部との間の位置および/または向きの差に基づいて、第2の出力チャネルに対する、第2の出力チャネル用レベル制御利得を決定することとを含んでもよい。
前記入力オーディオ信号と、前記方向伝達関数対と、前記少なくとも1つのレベル制御利得値と、前記少なくとも1つの音源と前記追跡部との間の位置および/または向きの差に基づいて、前記少なくとも2つの出力チャネルを合成することは、前記入力オーディオ信号への、前記少なくとも1つの音源と前記追跡部との間の位置および/または向きの差に基づく第1の頭部伝達関数と、モデル化された左耳位置の組合せに、左レベル制御利得値をかけることで、前記少なくとも2つの出力チャネルの左出力チャネルオーディオ信号を生成することと、前記入力オーディオ信号への、前記少なくとも1つの音源と前記追跡部との間の位置および/または向きの差に基づく第2の頭部伝達関数と、モデル化された右耳位置の組合せに、右レベル制御利得値をかけることで、前記少なくとも2つの出力チャネルの右出力チャネルオーディオ信号を生成することとを含んでもよい。
前記追跡部は、前記追跡部に対応付けられた方向を生成するように構成されたヘッドバンドを備え、前記方向はユーザの聴き取り方向に対応付けられてもよい。
前記方法は、出力信号値の範囲が定義されたパルス符号変調方式のダイナミックレンジに含まれるように、前記少なくとも2つの出力チャネルの出力信号値を制限することをさらに含んでもよい。
前記少なくとも2つの出力チャネルは、オーバヘッドが最小限に抑えられてもよい。
前記基準位置は、少なくとも1つの空間的に取得される音源に対する原点位置および/または向きと、カメラに対する原点位置および/または向きと、前記少なくとも1つの音源が存在する音場面に対する原点位置および/または向きと、の内の少なくとも1つであってもよい
第3の態様によると装置が提供され、該装置は、基準位置に対して少なくとも1つの音源の位置を設ける手段と、前記少なくとも1つの音源に対応付けられた少なくとも1つの入力オーディオ信号を分析し、前記少なくとも1つの入力オーディオ信号および前記基準位置に対する前記少なくとも1つの音源の位置に基づいて、少なくとも1つの利得値を決定する手段と、前記少なくとも1つの入力オーディオ信号と、方向伝達関数対と、前記少なくとも1つの利得値と、前記基準位置に対する前記少なくとも1つの音源の位置に基づいて、少なくとも2つの出力チャネルを合成する手段を備える。
前記基準位置に対して前記少なくとも1つの音源の位置を設ける前記手段は、少なくとも2つのマイクオーディオ信号を分析し、前記基準位置に対する前記音源の位置を決定する手段を備えてもよい。
前記基準位置に対して前記少なくとも1つの音源の位置を設ける前記手段は、前記少なくとも1つの入力オーディオ信号に対応付けられたメタデータから、前記基準位置に対する前記音源の位置を取得する手段を備えてもよい。
前記少なくとも1つの入力信号に対応付けられた前記メタデータは、ある周波数帯域に対する前記メタデータの方向パラメータを含んでもよい。
前記少なくとも1つの音源に対応付けられた前記少なくとも1つの入力オーディオ信号を分析する手段は、少なくとも1つの入力オーディオ信号レベルを決定する手段を備えてもよく、前記少なくとも1つの利得値を決定する手段は、前記少なくとも1つの入力オーディオ信号レベルおよび前記基準位置に対する前記少なくとも1つの音源の位置に基づいて、前記少なくとも1つの利得値を決定する手段を備えてもよい。
前記装置は、前記基準位置に対する追跡部の位置および/または向きを決定する手段をさらに備えてもよい。
前記装置は、前記少なくとも1つの音源と前記追跡部との間の位置および/または向きの差に基づいて、レベル制御利得を決定する手段をさらに備えてもよい。
前記少なくとも1つの音源と前記追跡部との間の位置および/または向きの差に基づいて、レベル制御利得を決定する手段は、前記少なくとも1つの入力オーディオ信号レベルに基づいて、少なくとも1つのレベル制御利得関数を決定する手段と、前記少なくとも1つのレベル制御利得関数に適用される、前記少なくとも1つの音源と前記追跡部との間の位置および/または向きの差に基づいて、前記レベル制御利得を決定する手段とを備えてもよい。
前記装置は、前記入力オーディオ信号と、前記方向伝達関数対と、前記少なくとも1つのレベル制御利得値と、前記少なくとも1つの音源と前記追跡部との位置および/または向きの差に基づいて、前記少なくとも2つの出力チャネルを合成する手段をさらに備えてもよい。
前記追跡部の位置および/または向きを決定する手段は、デジタルコンパスからの方向、ジャイロスコープからの方向、ビーコン測位システムからの方向、前記位置が未来の実際の追跡部位置を推定したものとなるように慣性および質量でモデル化された方向、の内の少なくとも1つを受信する手段を備えてもよい。
前記少なくとも1つの音源と前記追跡部との間の位置および/または向きの差に基づいて、前記レベル制御利得を決定する手段は、前記少なくとも1つの音源と前記追跡部との間の位置および/または向きの差に基づいて、前記入力オーディオ信号に対応付けられた第1の周波数帯域に対する、第1の周波数帯域用レベル制御利得を決定する手段と、前記少なくとも1つの音源と前記追跡部との間の位置および/または向きの差に基づいて、前記入力オーディオ信号に対応付けられた第2の周波数帯域に対する、第2の周波数帯域用レベル制御利得を決定する手段と、を備えてもよい。
前記少なくとも1つの音源と前記追跡部との間の位置および/または向きの差に基づいて、前記レベル制御利得を決定する手段は、前記少なくとも1つの音源と前記追跡部との間の位置および/または向きの差に基づいて、第1の出力チャネルに対する、第1の出力チャネル用レベル制御利得を決定する手段と、前記少なくとも1つの音源と前記追跡部との間の位置および/または向きの差に基づいて、第2の出力チャネルに対する、第2の出力チャネル用レベル制御利得を決定する手段とを備えてもよい。
前記入力オーディオ信号と、前記方向伝達関数対と、前記少なくとも1つのレベル制御利得値と、前記少なくとも1つの音源と前記追跡部との間の位置および/または向きの差に基づいて、前記少なくとも2つの出力チャネルを合成する前記手段は、前記入力オーディオ信号への、前記少なくとも1つの音源と前記追跡部との間の位置および/または向きの差に基づく第1の頭部伝達関数と、モデル化された左耳位置の組合せに、左レベル制御利得値をかけることで、前記少なくとも2つの出力チャネルの左出力チャネルオーディオ信号を生成する手段と、前記入力オーディオ信号への、前記少なくとも1つの音源と前記追跡部との間の位置および/または向きの差に基づく第2の頭部伝達関数と、モデル化された右耳位置の組合せに、右レベル制御利得値をかけることで、前記少なくとも2つの出力チャネルの右出力チャネルオーディオ信号を生成する手段とを備えてもよい。
前記追跡部は、前記追跡部に対応付けられた方向を生成するように構成されたヘッドバンドを備え、前記方向はユーザの聴き取り方向に対応付けられてもよい。
前記装置は、出力信号値の範囲が定義されたパルス符号変調方式のダイナミックレンジに含まれるように、前記少なくとも2つの出力チャネルの出力信号値を制限する手段をさらに備えてもよい。
前記少なくとも2つの出力チャネルは、オーバヘッドが最小限に抑えられてもよい。
前記基準位置は、少なくとも1つの空間的に取得される音源に対する原点位置および/または向きと、カメラに対する原点位置および/または向きと、前記少なくとも1つの音源が存在する音場面に対する原点位置および/または向きと、の内の少なくとも1つであってもよい。媒体に記憶されたコンピュータプログラム製品により、装置に本明細書に記載の方法を実行させてもよい。
電子デバイスは、本明細書に記載の装置を含んでもよい。
チップセットは、本明細書に記載の装置を含んでもよい。
本願の実施形態は、現状の技術に関する問題を解決することを目的とする。
本願をよりよく理解できるよう、以下の添付の図を例示的に参照する。
図1aは、いくつかの実施形態の実施に適した、分散型オーディオキャプチャおよび処理システムおよび装置を概略的に示す。 図1bは、いくつかの実施形態の実施に適した、分散型オーディオキャプチャおよび処理システムおよび装置を概略的に示す。 図2は、マイクアレイに対する音源の例示的向きを概略的に示す。 図3は、頭部追跡部第1の向き、すなわち基準向きに対する音源の例示的向きを概略的に示す。 図4は、頭部追跡部第2の向き、すなわち回転向きに対する音源の例示的向きを概略的に示す。 図5は、例示的オーディオ信号に対する、第1のおよび第2の向きの間の頭部追跡部の向きの差に応じた出力レベル分布の例を概略的に示す。 図6は、例示的オーディオ信号に対する、第1のおよび第2の向きの間の頭部追跡部の向きの差に応じた出力レベル周波数分布の例を概略的に示す。 図7は、図1bに示すレベルコントローラをさらに詳細に、概略的に示す。 図8は、図7に示すレベルコントローラの効果を概略的に示す。 図9は、実施形態の実施に適した電子デバイスの例を示す。
以下に、空間的に処理されたオーディオ信号と、特に追跡部からの入力に基づいてレンダリングされたオーディオ信号における、オーディオ信号の効果的な利得制御を実現するのに適した装置や、利用できうる機構についてより詳細に説明する。例えば、追跡部は聴き手の頭部の向きを監視する頭部追跡部であってもよい。以下の例では、オーディオ信号とオーディオキャプチャ信号が説明される。ただし、ある実施形態において、本装置は、オーディオ信号を取得する、またはオーディオ信号とその他の情報信号を受信するように構成された、任意の適切な電子デバイスまたは装置の一部であってもよいことが理解されよう。
上述したように、利得制御に対する従来の手法は、遅延線、利得(またはダイナミックレンジ)コントローラおよび乗算器により、音量制御を実現しうるものである。利得またはダイナミックレンジコントローラは、入力信号の振幅を決定し、この入力信号が遅延線を通過する際に、信号に適用される利得を計算し、その後その利得を乗算器により適用して、出力信号の振幅を調整してもよい。入力信号の振幅が所定の閾値を超えると、利得コントローラは、出力信号の振幅を制限して、所定の閾値未満に抑える。マルチバンド利得またはダイナミックレンジコントローラシステムの実現により、これを向上できうる。該システムは、それぞれ既定の周波数帯に対する利得を制御する複数のコントローラを用いて、閾値および利得を制御することにより、出力信号の全体的な音量を上げることができる。周波数に依存した制御により、1つの周波数帯域に入力電力が集中すると、出力信号の音量が上がりうる。ただし、これにより通常、フィルタリングまたは周波数分割工程が必要となり、これがシステムの処理遅延および計算負荷を増加させる。
以下に詳細に記載される概念は、例えば空間オーディオ再生システムの一部として実施されてもよい。このシステムは、外部(スピーカ、楽器、またはその他の音源)オーディオ信号と、空間(音響場)オーディオ信号の両方を取得するように構成されたキャプチャシステムの一部であってもよい。したがって、本明細書に記載の実施形態では、利得制御システムが空間オーディオ再生システムに統合されて、ヘッドルームの必要性を最小限に抑え、計算の複雑さと時間遅延とを最小限に抑えるようにする。
したがって、本明細書に記載の実施形態は、バイノーラル空間オーディオ再生方法を実現しうる。この方法は、任意の音響源の到来方向(Direction of Arrival:DOA)と、直接要素(音響源等)と周囲要素(すなわち背景)の割合を推定し、この情報と聴き手の頭部追跡部入力の向きを利用して、バイノーラル出力信号を合成するものである。
したがって、統合された利得制御方法および装置は、音源と、(例えば頭部追跡装置からの)出力信号を聴いているユーザの、(推定された、または既知の)位置についての情報を利用して、レンダリングされたバイノーラル出力信号のレベルを推定する。このようにして、該方法および装置は、利得制御機能を、空間オーディオ処理およびレンダリングシステムに統合しうる。
これによりもたらされる効果は主に2つ考えられる。まず、空間オーディオ再生システムのレンダリング機能が利用でき、滑らかな利得変化や、周波数依存利得が、遅延や処理負荷の増加を伴わず適用できうる。さらに、理想的なヘッドルーム構成に「到達」できる。
分散型オーディオキャプチャシステムの一部として実現される、利得制御に適切な方法および装置を以下に説明する。以下の例は、ライブコンテンツのキャプチャおよび処理について説明される。ただし、ライブおよび記録コンテンツ(または記録コンテンツのみ)の処理に適切なさらなる例を採用できる。
以下にさらに詳細に説明する方法は、頭部追跡装置からの出力を利用して、オーディオ信号に対応付けられた利得/処理パラメータを変更することからなる。以下の例において、キャプチャ、ミキサ、出力システムはそれぞれ個別であるものと示されるが、単一の装置で実現されてもよいし、物理的に分離しているが、互いに通信可能な一連の装置で分散されてもよい。
さらに、以下の装置の少なくとも一部の要素は、いわゆる「クラウド」等の、分散型演算システム内で実現されうる。
図1aに、いくつかの実施形態に係る利得制御の実現に適した、分散型オーディオキャプチャおよび処理システムの一例を示す。
以下の例では、3つの外部音源が示されるが、キャプチャ対象の音源の数を3つよりも少なくして、または多くして、以下の装置および方法を適用することもできる。例えば、システム99は第1の音源マイク111を備える。第1の音源マイク111は、ラべリアマイクまたは「近接」音源キャプチャ装置のその他の例であってもよい。例えばある実施形態において、第1の音源マイクは、ブームマイクまたは同様の接近型マイクキャプチャシステムであってもよい。ある実施形態において、第1の音源マイク111はマイクアレイであってもよい。図1aに示す第1の音源マイク111は、ボーカル等の第1の音響源に対応付けられたマイクであってもよい。
システム99は、第2の音源マイク113をさらに備えてもよい。第2の音源マイク113は、楽器等の第2の音響源に対応付けられたマイクまたはマイクアレイであってもよい。例えば、第2の音源マイクは、エレキギターに内蔵された内部マイクシステム(ピックアップマイク)である。
システム99は、第3の音源マイク115をさらに備えてもよい。第3の音源マイク115は、第3の音響源に対応付けられたマイクまたはマイクアレイであってもよい。例えば、第3の音源マイクは、ドラムに対応付けられたマイクである。
音源マイク111、113、115は、いずれも対応付けられた音源と共にダイナミックに動くもので、かつ、音源のダイナミックオーディオ出力を反映するものであってもよいことが理解されたい。
音源マイク111、113、115は、それぞれが取得したオーディオ信号を、プロセッサ兼レンダラ100に出力するように構成されてもよい。例えば、第1の音源マイク111は、プロセッサ兼レンダラ100の受信部(図示せず)へとオーディオ信号を無線送信する送信部(図示せず)を備えてもよい。
システム99は、空間オーディオキャプチャ(Spatial Audio Capture:SPAC)デバイス105をさらに備えてもよい。空間オーディオキャプチャデバイス105は、「音響場」キャプチャ装置の一例であって、ある実施形態においては、本明細書に記載の音源により表される周囲音場面やその他の周囲音源に対応付けられたオーディオ信号を取得するように構成された指向性マイクアレイまたは全方向性マイクアレイであってもよい。空間オーディオキャプチャデバイス105は、取得したオーディオ信号を、プロセッサ兼レンダラ100に出力するように構成されてもよい。
ある実施形態において、空間オーディオキャプチャデバイス105はモバイルデバイス内に実現される。この場合、空間オーディオキャプチャデバイスは、空間オーディオを取得するように構成されており、当該空間オーディオは、聴き手に届けられると、聴き手が実際に空間オーディオキャプチャデバイスの所在地に存在するかのように感じられる音場を体験可能とするものである。
空間オーディオキャプチャデバイス105は、位置決定部または位置追跡部(図1aに図示せず)をさらに備えてもよい。位置決定部または位置追跡部は、空間オーディオキャプチャデバイス105に対する、音源マイク111、113、115(したがって、それらに対応付けられた音源)の位置を特定するのに適した出力を生成し、この情報をプロセッサ兼レンダラ100に出力するように構成されてもよい。図1aにおいて音源マイク111、113、115から延びるように示された点線が、位置追跡部または決定部から測位システム151への出力伝送を示すものであってもよい。以下の例においては、空間オーディオキャプチャデバイスは基準位置の一例とされるが、任意の物体位置を基準としてもよい。位置決定/追跡は任意の適切な手段または方法で実現されてもよい。
例えばある実施形態において、測位システムは衛星測位信号(またはその他のビーコン信号)を利用して、音源と空間オーディオキャプチャデバイス(ある実施形態においてはミキサ)の位置を推定してもよい。このように推定された位置は、位置決定部または位置追跡部に送信されてもよい。位置決定部または位置追跡部は、これらの位置を受信し、ある実施形態においては空間キャプチャデバイス(および/またはミキサまたはミキシングコントローラ)に対する音源の位置を決定するように構成される。
位置決定は、ローカル無線周波数信号推定により実行されてもよい。すなわち、例えば音源マイクは位置タグを備えてもよい。この位置タグは、無線周波数信号を生成および送信するように構成されてもよい。当該信号は、適切な受信部により受信可能であって、受信部または位置決定部に、受信部に対する音源マイクの位置または場所を特定するのに適切な情報を決定可能とするものでありうる。したがって、空間オーディオキャプチャデバイス105は、位置タグ受信部をさらに備えてもよい。この位置タグ受信部は、音源に対応付けられた位置タグからの無線周波数信号を受信するように構成される。空間オーディオキャプチャデバイス105は、空間オーディオキャプチャデバイスに対するタグの推定位置を決定するように構成された位置決定部をさらに備えてもよい。人に装着される/楽器に設けられたマイクは、音響空間内を自由に移動できるので、位置決定部は、マイク位置の連続検知に対応可能である必要がある。
ある実施形態において、受信部および/または位置追跡部または決定部は、空間オーディオキャプチャデバイス105外に設けられてもよい。そのような実施形態では、空間オーディオキャプチャデバイス自体が、位置タグを備える(または位置タグに対応付けられている)。この位置タグは、受信部および/または位置決定部が、位置決定部に対する空間オーディオキャプチャデバイスの位置を推定可能とする無線周波数信号を生成する。それに応じて、位置決定部は音源(または音源に対応付けられた位置タグ)と、空間オーディオキャプチャデバイス(およびデバイスに対応付けられた位置タグ)の(1つまたは複数の)相対位置を決定してもよい。
ある実施形態において、高精度屋内測位(High Accuracy Indoor Positioning:HAIP)システム、またはその他の適切な屋内測位技術を利用して、位置タグおよび位置決定部が実現される。したがって、位置タグはHAIPタグであって、位置受信部および/または位置追跡部は、タグの位置を追跡するように構成されたHAIP探知部である。
ある実施形態において、無線周波数に基づく位置推定に加えて、位置決定部および/または位置追跡部はビデオコンテンツ分析および/または音源位置特定を利用してもよい。
すなわち、ある実施形態において、空間オーディオキャプチャデバイスの位置または配置箇所が決定される。空間オーディオキャプチャデバイスの配置箇所は、(0時点において)以下のように表される。
Figure 2022062282000002
ある実施形態において、第1の音源(s1)マイクが、HAIP探知部から特定の距離範囲で、SPACアレイの前方に配置される、較正工程または動作が実現されてもよい(言い換えると、0時点を定義する)。この第1の音源マイクの位置は、以下のように表される。
Figure 2022062282000003
さらに、ある実施形態において、この較正工程は、HAIP座標系における空間オーディオキャプチャデバイスの「前方向」を決定できる。これは、まず次のベクトルからアレイ前方向を定義することで実行されうる。
Figure 2022062282000004
このベクトルにより、位置追跡部はアレイに対する方位角αS1および距離dS1を決定可能としてもよい。
例えば、時点tでの第1の音源マイク位置を次のようにする。
Figure 2022062282000005
アレイに対する方向は次のベクトルで定義される。
Figure 2022062282000006
ここから方位αは以下のように決定される。
Figure 2022062282000007
式中、atan2(y,x)は、正のx軸と点(x,y)との間の角度が得られる「四象限逆正接」である。したがって、第1の項により、正のx軸(xS(0)およびyS(0)を原点とする)と、点(xS1(t),yS1(t))との間の角度が求められ、第2の項により、x軸と、初期位置(xS1(0),yS1(0))との間の角度が求められる。方位角は第1の角度を第2の角度から引くことで得られてもよい。
距離dは次のように求められる。
Figure 2022062282000008
ある実施形態において、HAIP位置データは多分にノイズを含みうるので、数秒(例えば30秒)の期間にわたって、オーディオキャプチャデバイスと第1の音源とのHAIPタグの位置を記録し、記録された位置の平均として位置(xS1(0),yS1(0)および(x(0),y(0)))を求め、上述の式の入力を得るようにしてもよい。
ある実施形態において、較正工程はSPACデバイス(例えばモバイルデバイス)により開始されてもよい。この場合、ユーザ(複数可)が、30秒間にアレイの前方から動かないように音声またはその指示を送り、当該期間の終了時に音で知らせるように構成される。
上述の例では、二次元における位置情報が位置決定部および/または位置追跡部により生成されているが、この情報は三次元情報にまで拡大されてもよいことが理解されよう。その場合、位置決定部および/または位置追跡部は、方位角および距離に加えて、仰角も決定しうる。
ある実施形態において、その他の位置決定/追跡手段を利用して、移動する音源の位置特定および追跡を実行してもよい。その他の追跡手段の例としては、慣性センサ、レーダー、超音波センシング、LIDARまたはレーザー測距計、視覚的分析、オーディオ分析等が挙げられる。
例えば視覚的分析により、人や楽器のようなあらかじめ決められた音源の位置特定および追跡を実行してもよい。視覚的分析は、空間オーディオと共に撮影されたパノラマ映像に対して適用されてもよい。すなわち、この分析では、音源マイクを持つ人を視覚的に位置特定することに基づいて、人の位置を特定および追跡するものであってもよい。視覚的追跡の利点として、音源が音を発しておらず、音響に基づいた追跡が困難であるような状況でも利用可能である。視覚的追跡は、各パノラマ映像フレームについて、適切なデータ群(歩行者を含む画像のデータ群等)で訓練した検出器を実行または動作することに基づいてもよい。別の実施形態において、動画フレーム間の、正しい人の軌跡を得るために、カルマンフィルタリングまたは粒子フィルタリング等の追跡技術を利用してもよい。ここで、空間オーディオキャプチャデバイスの前方向に一致する、パノラマ映像の前方向に対する人の位置を、該当する音源の到来方向として利用できる。ある実施形態において、音源マイクの外観に基づく視覚的マーカまたは検出器を利用して、視覚的追跡方法の精度向上に寄与してもよい。
ある実施形態において、視覚的分析は、音源(すなわち、パノラマ映像フレーム内の座標)の二次元位置についての情報のみを提供するものではなく、検出音源のサイズに比例する、距離についての情報も提供できる。ただし、後者は音源クラスの「標準的な」サイズがわかっていることが前提となる。例えば、「あらゆる」人の距離は、平均身長に基づいて推定できる。あるいは、システムにおいて特定の音源のサイズがわかっていれば、より正確な距離の推定も可能である。例えば、追跡が必要な各人の身長をシステムに伝えるまたはそれで訓練するようにしてもよい。
ある実施形態において、奥行き検知装置を使用することで、三次元または距離情報を実現してもよい。例えば、「Kinect」システム、飛行時間型カメラ、ステレオカメラまたはカメラアレイを利用して、分析対象の画像を生成してもよく、多数の画像からの画像差分から、奥行きまたは三次元視覚的シーンが生成されてもよい。これら画像はカメラにより生成されてもよい。
ある実施形態において、音響源位置決定および追跡を使用して音源を追跡しうる。例えば、到達時間差(Time Difference of Arrival:TDOA)法により、この音源の方向を推定しうる。音源位置決定は、ある実施形態において、ステアドビームフォーマを粒子フィルタ型追跡アルゴリズムと共に使用し実現してもよい。
ある実施形態において、音源の追跡に、音響自己位置特定を利用してもよい。
無線技術と、接続性に対するソリューションにおいて、さらにデバイス間の高精度同期に対応可能な技術が存在する。これは、音響相関解析における時間のずれの不確定性を取り除くことで、距離測定を簡潔化できるものである。これらの技術は、マルチチャネル音響再生システムの、将来的なWiFi規格化のために提案されている。
ある実施形態において、屋内測位、視覚的分析、音響源位置特定のそれぞれによる位置推定を共に利用してもよい。例えば、各決定部または推定部からの推定を平均化して、位置決定および追跡精度を向上してもよい。さらに、視覚的分析の計算負荷(通常、オーディオ信号またはHAIP信号の分析よりもかなり「重い」)を最小限に抑えるように、パノラマフレーム全体の、音源が存在すると音響および/またはHAIP分析サブシステムが予測した空間的位置に対応する一部のみに視覚的分析を実施してもよい。
ある実施形態において、位置推定は、多数の音源からの情報を組み合わせてもよい。多数の推定を組み合わせることにより、提供されたシステムに対して、正確な位置情報を提供する可能性がある。ただし、システムは低い解像度であっても、位置推定を実現する位置検出技術のサブセットを利用するように構成されうることが有利である。
システム99は、音源マイク111、113、115および空間オーディオキャプチャデバイス105の出力を受信するように構成されたプロセッサ兼レンダラ100をさらに備えてもよい。さらに、ある実施形態において、プロセッサ兼レンダラ100は、位置追跡部から音源位置(および追跡情報)を受信するように構成されてもよい。
プロセッサ兼レンダラ100は、音源マイク111、113、115および空間オーディオキャプチャデバイス105からの出力を処理(例えばミキシング)して、このように処理された信号をヘッドホン121に出力するように構成されてもよい。本明細書で示すプロセッサ兼レンダラ100は、入力コントローラ103および頭部追跡部(または追跡部)101からの入力を受信し、この入力に基づいて音響源/空間オーディオキャプチャデバイス(または装置)からのオーディオ信号を処理するように構成されてもよい。これについては詳細に後述する。
システム99は、入力コントローラ103をさらに備えてもよい。入力コントローラ103は、プロセッサ兼レンダラ100の音響出力を(例えばヘッドホン121を介して)聴いているユーザに、出力の処理を制御することを可能としてもよい。したがってある実施形態において、入力コントローラ103は、適切な選択を実現し、プロセッサ兼レンダラ100への出力を制御することで、音響源と、プロセッサ兼レンダラ100が生成した空間オーディオキャプチャデバイスオーディオ信号の処理(例えばミキシング)を制御してもよい。入力コントローラ103は、物理的コントローラ要素を備えてもよい。例えば、スライダ、ダイヤル、ボタンでもよいし、あるいはタッチスクリーンにおいて物理的コントローラ要素を仮想的に表したものであってもよい。ある実施形態において物理的コントローラ要素は、動的に再設定可能である。すなわち、同一のコントローラ要素で、第1の期間においては第1のパラメータまたは機能が制御され、第2の期間においては第2のパラメータまたは機能が制御されてもよい。
システム99は、頭部追跡部(音源追跡部または単純に追跡部とも呼ばれるものである)101をさらに備えてもよい。これは、出力を聴くユーザの頭部の向きを追跡する任意の適切な慣性センサであってもよい。言い換えると、頭部追跡部101は、方位および/または仰角を測定するための任意の適切な手段であってもよい。例えば、頭部追跡部はヘッドホン121に取り付けられ、出力を聴いているユーザの、定義されたまたは基準向き(マイクアレイ「前」方向)に対する向きおよび/または方位を監視し、プロセッサ兼レンダラ100に出力可能な値または入力を提供するように構成されたセンサであってもよい。頭部追跡部101は、ある実施形態において、少なくとも1つのジャイロスコープおよび/またはデジタルコンパスにより実現されてもよい。動作を簡単にするため、頭部追跡部および空間オーディオキャプチャデバイスマイクアレイは、磁気コンパスを備えて、専用の手動較正ステップを必要なくしてもよい。磁気コンパスがない場合、頭部追跡部を装着したユーザは、オーディオキャプチャシステムの基準軸と同一の方向を向くことで、システムの較正が行われる。
図1aに示すように、システム99は、一対のヘッドホン121をさらに備える。これは聴き手の頭部に装着可能で、適切なバンドを介して接続された一対のトランスデューサを備える。バンドに頭部追跡部101が装着される。ある実施形態において、ヘッドホン121は、電気信号をユーザへの音響出力に変換するのに適したイヤピース、イヤホン等であってもよい。
図1bは、プロセッサ兼レンダラ100の例をさらに詳細に示す。プロセッサ兼レンダラ100は、オーディオ信号/ストリームを受信するように構成される。例えば、プロセッサ兼レンダラ100は、(空間オーディオキャプチャデバイス105内の)マイクアレイ141、あるいは第1の音源マイク111、第2の音源マイク113、または第3の音源マイク115からオーディオ信号を受信するように構成されてもよい。したがって入力は、マイクアレイの2以上のマイク信号、あるいは既知の方向に配置されたラべリアマイクまたは楽器用マイクからの1以上の音響物体信号を含んでもよい(特定の実施形態では、オーディオ信号/ストリームとして、対応付けられた位置値を有するその他の任意のオーディオ信号が使用されてもよい)。ある実施形態において、入力は「記録された」または記憶されたオーディオ信号であってもよい。例えば入力は、マルチチャネルラウドスピーカ信号、すなわちラウドスピーカチャネル構成に配置されたオーディオ信号を含んでもよい。ある実施形態において、音響入力は、サンプリングされたオーディオ信号と、聴き手に対する、音響源または物体の方向または位置を表すメタデータを含んでもよい。ある実施形態において、音響入力信号は、利得値等のその他の任意のパラメータ、またはオーディオ信号にかけられる等化フィルタを含んでもよい。
ある実施形態において、プロセッサ兼レンダラ100はアナライザ131を有する。アナライザ131は、音響源に対応付けられた向きまたは位置を決定するために、音響入力を分析するように構成される。アナライザ131は任意の適切な方向または位置解析を実行してもよい。例えばある実施形態において、アナライザ131は、空間オーディオキャプチャデバイス105からの、測位システム151の出力を受信し、この情報から音源の向きまたは位置を決定するように構成される。
ある実施形態において、アナライザ131は、空間オーディオキャプチャデバイス105からオーディオ信号を受信し、それを分析して音景内の音響源または物体に対応付けられた方向または位置情報を決定するように構成されてもよい。同様に、上述のように音源マイクはマイクアレイを含みうるため、その場合、アナライザは音源マイクからのオーディオ信号を分析し、音景内の音響源/物体を決定する。
アナライザ131は、音源の到来方向(DOA)を決定するように構成されてもよい。さらに、アナライザ131は、直接成分と周囲成分の割合、またはその他の音景を表現および定義するのに寄与するその他のパラメータを決定するように構成されてもよい。
図2は、例えば単一の音源201、およびM個のマイクを含むマイクアレイ200(例えば空間オーディオキャプチャデバイス105のマイクアレイ141でありうる)が存在する例を示す。マイクアレイ200は、マイク信号x(m,n')を提供するように構成されうる。ここでmとn'はそれぞれマイクと時間のインデックスである。音源201は、球面座標系において、方位角Φ(k,n)と、仰角θ(k,n)とを有するように示されている。なお、k、m、nはそれぞれ、周波数、マイク、時間のインデックスである。
アナライザ131は、短時間フーリエ変換により、入力信号を周波数領域に変換してもよい。
X(k,m,n)=F(x(m,n'))
式中、Xは変換された信号を示す。
音源の到来方向を決定するための方法が数多く知られている。ここでは、方向情報を決定するための1つの方法が説明される。有用性が確認された方法である。この方法はあくまで例示であって、別の方法を利用してもよい。この方法は、音響入力信号チャネル間の相関に基づく。この方法では、到来音の方向は、B周波数領域サブ帯域について個別に推定される。全サブ帯域について、最も突出して知覚される音源の方向を確認するという概念である。最も突出して知覚される音源の方向を全サブ帯域について決定すると、複数の音源がどこにあるか、複数の音源がそれぞれ異なるサブ帯域において突出している場合には、それらに対応付けられた方向を決定できる。
上述のように、各入力信号mはフーリエ変換により周波数領域に変換されるが、フーリエ変換は離散フーリエ変換(Discrete Fourier Transform:DFT)またはその他の適切に実施される変換であってもよい。例示的実施形態において、変換窓かけには、重複50%、有効長20ミリ秒(ms)の正弦波窓を利用する。ある実施形態において、フーリエ変換実施前に、窓の終端にDtot=Dmax+DHRTFゼロが加えられる。Dmaxは、マイク間のサンプルの最大遅延に対応する。最大遅延は以下のとおりに求められる。
Figure 2022062282000009
式中、Fは信号のサンプリングレートであって、
Figure 2022062282000010
は空気中の音の速度である。DHRTFの値は、シンセサイザ兼HRTFレンダラ135内で実施されうる任意の頭部伝達関数(Head Related Transfer Function:HRTF)処理により信号に生じた最大遅延である。
DFT変換後、全マイクmに対する周波数領域表現X(k,m,n)はk=0,…,N-1となる。Nは、正弦波窓(長さN)と、追加された
Figure 2022062282000011
ゼロを考慮した窓の全長である。
周波数領域表現は、B個のサブ帯域に分割される。
Figure 2022062282000012
式中、
Figure 2022062282000013
は第bサブ帯域の第1インデックスである。サブ帯域の幅は、例えば等価矩形帯域幅(Equivalent Rectangular Bandwidth:ERB)という尺度に基づいてもよい。
全てのサブ帯域について、以下のように方向解析が実行される。
1.サブ帯域が選択される。
2.当該サブ帯域内の信号に対して方向解析が実行される。方向解析は、(例えば突出した)音源の方向αを決定するものである。
3.全てのサブ帯域が選択されたか判定する。まだ全て選択済みではなければ、新たなサブ帯域を選択してステップ2を繰り返す。選択されていれば、決定されたサブ帯域方向を処理して、突出した音源(およびその他の音源)の方向を決定する。
上記ステップ2は、以下のサブステップまたは動作にさらに分割されてもよい。
最初に、2つのマイク信号(この例ではマイク2および3)により、方向が推定される。2つの入力マイクオーディオ信号について、これらチャネルの周波数領域信号間の時間差が除去される。目的は、サブ帯域bについての2つのチャネル間の相関が最大となる遅延τを見つけることである。
例えば
Figure 2022062282000014
の周波数領域表現は、以下を使用してτb時間領域サンプルずらすことができる。
Figure 2022062282000015
最適遅延が以下のとおりに求められる。
Figure 2022062282000016
式中、Reは、結果の実数部で、*は複素共役である。
Figure 2022062282000017
および
Figure 2022062282000018
は、
Figure 2022062282000019
サンプルの長さを持つベクトルと考えられる。1サンプルの解像度は、概して上述の遅延を見つけるのに適したものである。また、相関とは異なる、その他の同様の知覚に基づく測定も利用可能である。遅延情報により、以下の論理から和信号が生成される。
Figure 2022062282000020

式中、τは前述のように定義された理想的な遅延である。
この和信号によると、イベントが生じるマイクのコンテンツ(すなわち、周波数領域信号)がまずそのまま加えられ、その後イベントが生じるマイクのコンテンツ(すなわち周波数領域信号)はシフトされて、最高の組合せが得られる。
したがって、音源は、例えばアレイの第2のマイクのようなマイクで受信される例示的時間領域関数で示されるイベントを生成するものと考えられる。同じイベントが第3のマイクで受信される。理想的な状況としては、アレイの第2のマイクで受信される例示的時間領域関数が、単純に第3のマイクで受信される関数を時間シフトしたものとなる。この状況が理想的である理由は、現実では2つのマイクが、例えば、それらによるイベントの記録が、強め合うまたは弱め合う干渉や、イベントからの音を遮蔽または増幅する要素により影響されるような、異なる様々な環境に置かれることが多いためである。
シフト値τは、音源が第3のマイクよりも第2のマイクにどれ程近いかを示す(τが正であれば、音源は第3のマイクよりも第2のマイクに近い)。実際の距離の差は以下のように計算される。
Figure 2022062282000021
基本的な幾何学を利用して、到来音の角度が以下に等しいと判定できる。
Figure 2022062282000022
式中、dはマイク間の距離であり、bは音源と最近傍のマイクとの推定距離である。典型的には、bは固定値に設定できる。例えばb=2メートルとすることで、安定した結果が得られることが確認されている。
なお、2つのマイクだけでは正確な方向が判定できず、音の到来方向については2つの可能性が存在する。
そこで、例えば3つのマイクのアレイにおける第1のマイクのようなさらなるマイクを利用して、いずれの符号(+または-)が正しいかを定義できる。
第1のマイクと、2つの推定された音源との距離は以下のとおりに定義できる。
Figure 2022062282000023
式中、hは、第1、第2、および第3のマイクの例示的配置(マイクが三角形の頂点にそれぞれ配置される)で定義される二等辺三角形の高さを表す。この例では、hは以下のとおりに定義される。
Figure 2022062282000024
距離は、サンプル内の遅延に等しい。
Figure 2022062282000025
これら2つの遅延の内、和信号とのよりよい相関を実現する一方が選択される。相関は以下のように求められる。
Figure 2022062282000026
この上で、サブ帯域bについて顕著な音源に対する方向が以下のように求められる。
Figure 2022062282000027
同じ推定が、各サブ帯域に対して繰り返される。
この方法は、「水平」および「垂直」に変位があるようなマイクアレイにも適用できる。これによって、方位と仰角とが決定できる。
したがって、音源の方向は、bをサブ帯域(すなわち、k個のインデックス群)として、球面座標系内の方位Φ(b,n)と、仰角θ(b,n)により表される。したがって、アナライザ131は入力を処理して、方向情報と、音場を表す別のメタデータまたはパラメータを提供できる。この位置メタデータは、シンセサイザ/レンダラ135およびレベルコントローラ133に送ってもよい。
さらに、図1bに示すように、プロセッサ兼レンダラ100はシンセサイザ/レンダラ135を備えてもよい。シンセサイザ/レンダラ135は、アナライザ131からの方向メタデータおよび入力信号X(k,n,m)と、レベルコントローラ133からの利得またはレベル制御と、頭部追跡部の向きを利用して、バイノーラル出力オーディオ信号を合成するように構成されてもよい。
シンセサイザ/レンダラ135は、入力オーディオ信号に対して頭部伝達関数(HRTF)を適用することで、左および右チャネル出力オーディオ信号を生成するまたは合成するように構成されてもよい。HRTFは、人の耳、頭部、胴等が、特定の方向からの音にどのように影響するかを表すものである。したがって、単純に複数の音響源のDOAと、複数の頭部追跡部の向きに応じて、異なる複数のHRTFが適用される。
図3に、頭部追跡部第1の(すなわち基準)向きに対する音源の向きの一例を示す。この例では、マイクアレイ200の基準向き300に対して、音源201は固定の仰角(θ=0)と、方位角φ203に配置されているように示されている。したがって、頭部追跡部が、マイクアレイと同じ「基準」向きまたは方向に向けられると、例示的音源201は聴き手の左側に位置することになる。
そのような例では、シンセサイザ135は、第1の「左チャネル」HRTFを入力オーディオ信号に適用して、左チャネルバイノーラル出力オーディオ信号を生成し、さらに第2の「右チャネル」HRTFを入力オーディオ信号に適用して、右チャネルバイノーラル出力オーディオ信号を出力するように構成される。
なお、上述の例では、聴き手の頭部が、音響源から右耳への直接経路を遮り、対応するHRTFの振幅反応は、ローパスフィルタ形状となることが理解されよう。一方で、音響源から左耳オーディオ出力への経路は頭部により遮られることはないので、対応するHRTFの振幅反応は上述のようなローパス的特性を帯びず、高周波数の割合が高まる。シンセサイザ/レンダラ135は、聴き手が頭部追跡部を利用する際に、その頭部の動きに合わせてレンダリングされた音景も動くようにさらに構成される。
例えば、図4は、第1の、すなわち基準向きに対して、第2の、すなわち回転向きに頭部追跡部が配置された例を示す。すなわち、例えば頭部追跡部の向き400が、マイクアレイ基準向き300に対して向き角度φhead401となっている。聴き手に対する音源201の向き(向き400により定義される)は、φ-φhead403と定義されうる。この例では、シンセサイザ135はここで、元の方位角φではなく、新たな方位角φ-φheadの音源入力向きに基づくHRTFを利用して、オーディオ信号をレンダリングする。頭部追跡部の可変の向きに基づく可変HRTFの提供の効果として、周波数応答に応じて左および右チャネル出力オーディオ信号を変化させるだけではなく、出力レベルを変化させることが挙げられる。
図5に、方位角変化に応じた出力レベルの変化を示す。図5では、音源および頭部追跡部の向きφ-φheadの変化のための、左チャネルオーディオ出力の出力レベル分布の例を示す。角度φ0=φ-φheadは、任意の固定角度である。最大出力レベルは、φMax502で聴こえうる。φ503では数デシベル低くなる。図8に示す理想的曲線を、所望の最大出力レベルを超えないように選択できる。
本明細書に記載のように、より高い周波数帯で、出力レベルがより激しく変化する。例えば図6は、例示的なオーディオ信号に対する、頭部追跡部の向きの差φ-φhead=π/2 601およびφ-φhead=-π/2 603に基づく出力レベル周波数分布の例を概略的に示す。本例に示すように、左耳が例示的音源φ-φhead=π/2 601に対する到来方向に「向いている」場合、出力オーディオ信号の周波数応答は、スペクトルの広範囲で高くなる。左耳が例示的音源φ-φhead=-π/2 603に対する到来方向に「向いていない」場合、頭部の遮蔽効果により、スペクトルの出力レベルが低減する。この低減は高い周波数(例えば>3,500Hz)で顕著である。
この出力レベルの変化は、利得制御およびダイナミックレンジ制御動作において考慮すべきものである。
図7は、図1bに示すレベルコントローラ133をより詳細に示すものである。図1bに示すレベルコントローラは、アナライザ13から入力オーディオ信号X(k,n,m)と、この入力オーディオ信号に対応付けられたその他のメタデータ(音源方向Φ(k,n)等)を受信するように構成される。さらに、レベルコントローラ133は、頭部追跡部ΦHEAD(k,n)から頭部の向き値701を受信するように構成されうる。
レベルコントローラ133は、入力オーディオ信号と、音源の方向と、頭部追跡部の向き値に基づいて、利得値G(k,n)を生成し、その利得値G(k,n)761をシンセサイザ/レンダラ135に出力するように構成される。
シンセサイザ/レンダラ135は、これらの利得値を受信し、入力オーディオ信号X(k,n,m)または出力オーディオ信号のそれぞれの一方に適用するように構成されてもよい。
ある実施形態において、レベルコントローラ133は、M個のマイク入力m=[1,M]に対する入力レベル予測X'(k,n)=max(abs(X(k,m,n)))と、φ-φheadにより定義された方位角に基づく、入力レベルと出力レベルとの所望の関係を実現する出力利得を計算するように構成される。ある実施形態において、利得関係は、一連の関数(または曲線)として表されてもよく、これを角度φ(k)-φhead(k)において所望の最大出力レベルを超えないように選択される。ある実施形態において、関数または曲線は、図5に示すような出力レベル推定に基づいて生成されてもよい。入力レベルおよび出力レベルの関係は、異なる様々な方位角φ-φheadと、周波数帯kについて測定され、所望の関係を実現する利得が決定される。一例示的実施形態では、レベル制御アルゴリズムがテーブルルックアップ機能により、所望の入力レベルおよび出力レベル関係を実現する曲線を選択する。
オーバーフローを防ぐため、利得曲線は、例えば一定の利得を低い入力レベルで実現し、より高い入力レベルではより低い利得が実現されるように、2つ以上のセクションからなるものであってもよい。ヘッドルームを最小限に抑えるため、最大予測入力レベルで使用される利得gMIN(k,φ)を決定する必要がある。システム閾値YTHMAX(k)が左および右出力の最大レベルを定義し、符号YMAX(k,φ)が最大予測入力レベルでの出力レベルを示すものとして、利得は、gMIN(k,φ)=YTHMAX(k)/YMAX(k,φ)となる。例えば一定利得値のようなその他の利得曲線パラメータは、使用されるシステムに依存するものであって、多くの場合主観的に判断される。線形性を仮定することで、出力レベルYEST(k,φ,n)=C*X'(k,n)*Th(k,φ(n))に対する推定を導ける。項Th(k,φ(n))により、出力レベル推定に方位角への依存性が加わる。ここでCはスカラー定数である。測定データは、CおよびTh値の決定に利用できる。
例えば図8は、単一の周波数帯と、一対の方位角に対する、利得関数曲線を示す、一連の関数の例を示す。したがって、例えば既定の入力レベルまでは、利得関数800は一定であり、方位角に依存しない。既定の入力レベルを超えると、最大出力レベル利得関数803が、基準出力レベル利得関数801よりも低くなるように、利得関数が方位角に応じて変化する。このように位置と周波数に依存した曲線を利用することで、レベルコントローラは必要なヘッドルームを最小限に抑えられる。
ある実施形態において、既知の方向に近接場マイクを設け、レベルコントローラ133はM個のマイク入力m=[1,M]に対して推定出力レベルYEST(k,n)=sqrt(sum(abs(X(k,m,n))*Th(k,φ(m,n)-φhead(n))))を計算するように構成されてもよい。
項Th(k,φ(m,n)-φhead(n))は、各近接場マイクmに対する入力レベルおよび出力レベル関係の方位角依存性を補償するものである。
したがって、レベル制御アルゴリズムは、各周波数帯kに対する推定出力レベルYESTに基づく所望の出力レベルを定義する固定曲線を利用してもよい。
上述のように、シンセサイザ/レンダラ135は、利得入力G(k,n)を受信し、乗算器を利用して利得を信号経路に適用するように構成されうる。ある実施形態において、利得はアナライザ131と、シンセサイザ/レンダラ135との間の乗算器ブロックにより適用される。
上述したような実施形態では、システムは、自身に対する遅延や計算負荷を最低限に抑えうる。これは、レベル制御関数の適用に個別のバッファリング、周波数領域変換、またはフィルタバンクが必要ないためである。
さらに、ある実施形態において、プロセッサ兼レンダラ100はリミッタ137を備えてもよい。リミッタ137は、シンセサイザ/レンダラ135からの出力を受信して、所望の振幅範囲内にパルス符号変調(Pulse Code Modulated:PCM)信号が収まることを保証し、それにより、若干小さくなったヘッドルームを利用可能とする。システム遅延増大を防ぐため、リミッタ137はシンセサイザ/レンダラ135の出力バッファリングを利用できる。
ある実施形態において、本明細書に記載のレベルコントローラを変形して、個別直列レベルコントローラを特定の入力(例えばパーカッション楽器またはベースギター)に実現可能となってもよい。ある実施形態において、ドラム等の近接マイク入力は、出力信号にミキシングされる前に、個別レベル制御関数を有していてもよい。
ある実施形態において、位置追跡部から受信したユーザの頭部の向き/位置は、質量および慣性でモデル化可能な連続した関数として扱うことができる。したがって、現在の頭部位置/向きから、並進および/または回転速度により未来の頭部位置/向きを予測することができる。ある実施形態において、レベルコントローラは利得推定を、現在の頭部位置だけでなく、予測頭部位置についても判定可能に構成されてもよい。例えば聴き手が耳を音源に向けていれば、レベル制御によってより滑らかな制御曲線が実現できうる。
上述のように従来技術の利得制御方法では、頭部追跡バイノーラルレンダリングでは極めて望ましくない余分な遅延が発生するが、詳述した上記実施形態では、利得制御を空間-音処理に組み込むことで、これを防止できる。
従来技術の利得制御方法では、独立した処理ブロックを要するため、計算が過度に複雑化してしまう。本明細書に提示の実施形態は、レベル(利得)制御を空間-音レンダリングに組み込むことで、これを防止できうる。したがって、余分な処理を最小限に抑えながら、レベル(利得)制御が実行できる。
従来技術の利得制御方法では、頭部追跡情報もDOA情報も考慮されない。したがって、クリッピングの防止のために、余分なヘッドルームまたは余分の遅延が必要となる。本明細書に提示の発明は、上述の情報を利用するので、余分なヘッドルームも余分の遅延も不要となる。
シンセサイザ/レンダラの後段に追加のリミッタを使用することで、本明細書に記載の実施形態は、従来技術の手段よりも優れた出力オーディオ品質を実現することが期待される。通常、ソフトリミット機能が必要となることはあまりないためである。
図9に、プロセッサ兼レンダラ100の少なくとも一部、またはシステム99の一部として利用可能な電子デバイスの例を示す。このデバイスは、任意の適切なデバイスまたは装置であってもよい。例えばある実施形態において、デバイス1200は仮想または拡張現実キャプチャデバイス、モバイルデバイス、ユーザ機器、タブレットコンピュータ、コンピュータ、オーディオ再生装置等である。
デバイス1200は、マイクアレイ1201を備えてもよい。マイクアレイ1201は、複数(例えばM個)のマイクを備えてもよい。ただし、マイクは任意の適切な構成であってもよいし、任意の適切な数のマイクを利用してもよい。ある実施形態において、マイクアレイ1201は装置から分離しており、オーディオ信号は有線または無線接続を介して装置に送られる。マイクアレイ1201は、ある実施形態において、図1aに示すようなSPACマイクアレイ144であってもよい。
マイクは、音波を適切な電気的オーディオ信号に変換するように構成されたトランスデューサであってもよい。ある実施形態において、マイクはソリッドステートマイクであってもよい。言い換えると、マイクはオーディオ信号を取得して、適切なデジタル形式の信号を出力可能であってもよい。別の実施形態において、マイクまたはマイクアレイ1201は任意の適切なマイクまたはオーディオキャプチャ手段を含み入る。例としては、コンデンサマイク、キャパシタマイク、静電マイク、エレクトレットコンデンサマイク、ダイナミックマイク、リボンマイク、カーボンマイク、圧電マイク、または微小電気機械システム(Microelectrical-Mechanical System:MEMS)マイクが挙げられる。このマイクはある実施形態において、オーディオキャプチャされた信号をA/Dコンバータ(ADC)1203に出力可能である。
デバイス1200は、A/Dコンバータ1203をさらに備えてもよい。A/Dコンバータ1203は、マイクアレイ1201における各マイクからのオーディオ信号を受信し、それを処理に適した形式に変換するようにさらに構成されてもよい。ある実施形態において、マイクが一体型マイクであれば、A/Dコンバータは不要である。A/Dコンバータ1203は、任意の適切なA/D変換または処理手段であってもよい。A/Dコンバータ1203は、オーディオ信号のデジタル表現を、プロセッサ1207またはメモリ1211に出力するように構成されてもよい。
ある実施形態において、デバイス1200は、少なくとも1つのプロセッサまたはCPU1207を備える。プロセッサ1207は様々なプログラムコードを実行するように構成できる。実行されるプログラムコードは、例えば本明細書に記載のSPAC制御、レベル制御、分析、合成/レンダリングを含んでもよい。
ある実施形態において、デバイス1200はメモリ1211を備える。ある実施形態において、少なくとも1つのプロセッサ1207がメモリ1211に接続される。メモリ1211は、任意の適切な記憶手段であってもよい。ある実施形態において、メモリ1211は、プロセッサ1207で実行可能なプログラムコードを記憶するためのプログラムコード部を備える。さらに、ある実施形態において、メモリ1211は、データ(例えば、本明細書に記載の実施形態のとおりに処理されたまたは処理されるデータ)を記憶するための記憶データ部をさらに備えてもよい。プログラムコード部内に記憶された、実行されたプログラムコードと、記憶データ部内に記憶されたデータとは、必要に応じてプロセッサ1207がメモリ-プロセッサ接続を介して取得できる。
ある実施形態において、デバイス1200はユーザインタフェース1205を備える。ある実施形態において、ユーザインタフェース1205は、プロセッサ1207に接続可能である。ある実施形態において、プロセッサ1207は、ユーザインタフェース1205の動作を制御して、ユーザインタフェース1205からの入力を受信可能である。ある実施形態において、ユーザインタフェース1205はユーザに、例えばキーパッドを介してデバイス1200に対してコマンドを入力可能とするものである。ある実施形態において、ユーザインタフェース1205はユーザに、デバイス1200から情報を取得可能とする。例えば、ユーザインタフェース1205は、デバイス1200からの情報をユーザに表示するように構成されたディスプレイを備えてもよい。ある実施形態において、ユーザインタフェース1205はタッチスクリーンまたはタッチインタフェースを備えてもよい。これらはデバイス1200への情報の入力と、デバイス1200のユーザへの情報の表示の両方を実現可能である。
実施形態によっては、デバイス1200は送受信部1209を備える。当該実施形態において、送受信部1209はプロセッサ1207に接続されて、別の装置または電子デバイスと、例えば無線通信ネットワークを介して通信可能とするように構成される。送受信部1209または任意の適切な送受信部または送信および/または受信手段は、ある実施形態において、有線または無線接続を介して別の電子デバイスまたは装置を通信するように構成されてもよい。
例えば図9に示すように、送受信部1209は頭部追跡部101、SPACデバイス105、またはヘッドホン121と通信するように構成されてもよい。
送受信部1209はさらなる装置と、任意の適切な公知の通信プロトコルにより通信可能である。例えばある実施形態において、送受信部209または送受信手段は、好適なユニバーサル移動体通信システム(Universal Mobile Telecommunications System:UMTS)プロトコル、例えばIEEE802.X等の無線ローカルエリアネットワーク(Wireless Local Area Network:WLAN)プロトコル、Bluetooth等の好適な短距離無線周波数通信プロトコル、または赤外線通信経路(Infrared Data communication pathway:IRDA)を用いうる。
ある実施形態において、デバイス1200は、ミキサおよび/またはレンダリング装置としてさらに利用されてもよい。この場合、送受信部1209は、オーディオ信号および位置情報を受信し、適切なコードを実行するプロセッサ1207を利用して、適切なオーディオ信号レンダリングを生成するように構成されてもよい。デバイス1200は、D/Aコンバータ1213を備えてもよい。D/Aコンバータ1213は、プロセッサ1207および/またはメモリ1211に接続されて、(例えば本明細書に記載のオーディオ信号のオーディオレンダリング後、プロセッサ1207からの)オーディオ信号のデジタル表現を、オーディオサブシステム出力を介して提供するのに適した、適切なアナログ形式に変換するように構成されてもよい。D/Aコンバータ(DAC)1213または信号処理手段は、ある実施形態において任意の適切なDAC技術を利用してもよい。
さらに、デバイス1200は、ある実施形態において、オーディオサブシステム出力1215を備えてもよい。図9に示すような一例として、オーディオサブシステム出力1215はヘッドホン121への接続を可能とするように構成された出力ソケットであってもよい。ただし、オーディオサブシステム出力1215は、任意の適切なオーディオ出力またはオーディオ出力への接続部でありうる。例えば、オーディオサブシステム出力1215は、マルチチャネルスピーカシステムへの接続部であってもよい。
ある実施形態において、D/Aコンバータ1213と、オーディオサブシステム1215とは、物理的に別々の出力デバイスで実施されてもよい。例えば、DAC1213およびオーディオサブシステム1215が、送受信部1209を介してデバイス1200と通信するコードレスイヤホンとして実施されてもよい。
図示のデバイス1200は、オーディオキャプチャおよびオーディオレンダリング要素を両方備えているが、ある実施形態においては、デバイス1200はオーディオキャプチャまたはオーディオレンダリング装置要素のみを備えてもよい。
一般に、本発明の様々な実施形態が、ハードウェアまたは特定用途向け回路、ソフトウェア、ロジック、またはそれらの組合せで実装されてもよい。例えば、ある態様はハードウェアで実装されてもよく、別の態様はコントローラやマイクロプロセッサ等のコンピュータデバイスによって実行されるファームウェアやソフトウェアで実装されてもよいが、本発明はこれらに限定されない。本発明の種々の態様はブロック図、フローチャート、または他の図的記述を使用して記述ないし図示される。本明細書に記載されるこれらのブロック、装置、システム、技術、方法は、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、特定用途向け回路やロジック、汎用ハードウェア、コントローラや他のコンピュータデバイス、またはそれらの組合せで実装されてもよいと理解されるべきである。
本発明の実施形態は、プロセッサエンティティ内にあるようなモバイルデバイスのデータプロセッサによって実行可能なコンピュータソフトウェアによって、またはハードウェアによって、またはソフトウェアとハードウェアの組合せによって実装されてもよい。またこの点に関して、添付する図面に示される論理フローの任意のブロックが、プログラムのステップや、相互接続された論理回路・ブロック・機能、またはプログラムのステップ、論理回路・ブロック・機能の組合せを表現してもよいことに留意されたい。ソフトウェアは、メモリチップ等の物理媒体、プロセッサ内に実装されるメモリブロック、ハードディスクやフレキシブルディスク等の磁気媒体、DVD、そのデータ異形態であるCD等の光学媒体に格納されてもよい。
メモリは、ローカルな技術環境に適したあらゆるタイプのものであってよく、例えば、半導体ベースのメモリデバイス、磁気メモリデバイス・システム、光学式メモリデバイス・システム、固定式メモリ、移動式メモリ等の様々な適合するデータ格納技術を用いて実装されてもよい。データプロセッサは、ローカルな技術環境に適したあらゆるタイプのものであってよく、非限定的な例として、1つ以上の汎用コンピュータ、特定用途向けコンピュータ、マイクロプロセッサ、デジタル信号プロセッサ(Digital Signal Processor:DSP)、特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)、ゲートレベル回路、マルチコアプロセッサ・アーキテクチャに基づくプロセッサを含んでもよい。
本発明の実施形態は、集積回路モジュールのような、様々な要素で実施されることもできる。集積回路の設計は多くは自動化されたプロセスである。論理レベルの設計を、半導体基板上にエッチング・形成するための半導体回路設計に変換する複雑で強力なソフトウェアツールが利用可能である。
カリフォルニア州マウンテンビューのSynopsys, Incや、カリフォルニア州サンノゼのCadence Designのような業者が提供するプログラムは、定評のある設計ルールと実績のある設計モジュールのライブラリに基づいて、半導体チップ上に導電経路や要素を自動的に配する。半導体回路の設計が完了すると、その設計は製造のために、OpusやGDSII等の標準的な電子フォーマットの形で半導体製造設備、いわゆるfabに送られる。
前述の説明は、本発明の例示的で非限定的な実施例を十分かつ詳細に記述している。しかし、こうした前述の説明を、添付する図面および特許請求の範囲と併せて考慮すれば、種々の修正および変更が可能であることは、本願に関連する技術分野の当業者には明らかであろう。さらに、本発明が教示するこうした事項の全ておよび類似する変形は、添付の特許請求の範囲で定義されるように、その全てが本発明の範囲内にある。

Claims (22)

  1. 基準位置に対して少なくとも1つの音源の位置及び/又は向きを設ける手段と、
    前記少なくとも1つの音源に対応付けられた少なくとも1つの入力オーディオ信号を分析し、前記少なくとも1つの入力オーディオ信号のための少なくとも1つの最大入力レベルを推定する手段と、
    ユーザの位置及び/又は向きを決定する手段と、
    前記少なくとも1つの音源の位置及び/又は向きと、前記ユーザの位置及び/又は向きとの間の差を決定する手段と、
    前記少なくとも1つの最大入力レベルおよび前記差に基づいて、少なくとも1つの利得値を決定する手段であって、前記少なくとも1つの利得値は、前記少なくとも1つの入力オーディオ信号に対応付けられた第1周波数帯域のための、第1周波数帯域用レベル制御利得を含む、前記決定する手段と、
    前記少なくとも1つの入力オーディオ信号と、方向伝達関数対と、前記少なくとも1つの利得値と、前記少なくとも1つの音源の位置及び/又は向きに少なくとも部分的に基づいて、少なくとも2つの出力チャネルを合成する手段と、
    を備える装置。
  2. 前記設けることは、
    少なくとも2つのマイクオーディオ信号を分析し、前記少なくとも1つの音源の位置及び/又は向きを決定することと、
    前記少なくとも1つの入力オーディオ信号に対応付けられたメタデータから、前記少なくとも1つの音源の位置及び/又は向きを取得することと、
    の少なくともいずれかを含み、前記メタデータは、ある周波数帯域に対する方向パラメータを含む、
    請求項1に記載の装置。
  3. 前記基準位置に対する追跡部の位置および/または向き
    を決定するようにさらに構成され、前記ユーザの位置及び/又は向きを決定することは、前記追跡部の位置及び/又は向きを決定することを含む、請求項1に記載の装置。
  4. 前記少なくとも1つの利得値を、前記少なくとも2つの出力チャネルのそれぞれの最大出力レベルに基づいて決定するように構成される、請求項1に記載の装置。
  5. 前記少なくとも1つの入力オーディオ信号と、前記方向伝達関数対と、前記第1周波数帯域用レベル制御利得と、前記差に基づいて、前記少なくとも2つの出力チャネルを合成するように構成された、請求項4に記載の装置。
  6. デジタルコンパスからの方向、
    ジャイロスコープからの方向、
    ビーコン測位システムからの方向、
    前記位置が未来の実際の追跡部位置を推定したものとなるように慣性および質量でモデル化された方向、
    の内の少なくとも1つを受信するように構成される、請求項3に記載の装置。
  7. 前記入力オーディオ信号に対応付けられた第2周波数帯域に対する、第2周波数帯域用レベル制御利得;
    第1出力チャネルに対する、第1出力チャネル用レベル制御利得;
    第2出力チャネルに対する、第2出力チャネル用レベル制御利得;
    の少なくともいずれかを、前記差に基づいて決定するように構成された、請求項1に記載の装置。
  8. 前記追跡部は、前記追跡部に対応付けられた方向を生成するように構成されたヘッドバンドを備え、前記方向はユーザの聴き取り方向に対応付けられている、請求項3に記載の装置。
  9. 前記ユーザの位置及び/又は向きは、前記装置の少なくとも一部の位置及び/又は向きを含み、
    前記少なくとも2つの出力チャネルの出力信号値の少なくともいずれかを制限し、それによって、該出力信号値が定義されたパルス符号変調方式のダイナミックレンジに含まれるようにするようにさらに構成された、請求項1に記載の装置。
  10. 前記基準位置は、
    少なくとも1つの空間的に取得される音源に対する原点位置および/または向き、
    前記少なくとも1つの入力オーディオ信号をキャプチャするマイクアレイの位置及び/又は向き、
    カメラに対する原点位置および/または向き、
    前記少なくとも1つの音源が存在する音場面に対する原点位置および/または向き、
    の内の少なくとも1つである、請求項1に記載の装置。
  11. 前記少なくとも2つの出力チャネルを合成することは、
    前記差を用いる第1頭部伝達関数と、モデル化された左耳位置の組合せに、左レベル制御利得値を乗算することに基づいて、左出力チャネルオーディオ信号を生成することと、
    前記差を用いる第2頭部伝達関数と、モデル化された右耳位置の組合せに、右レベル制御利得値を乗算することに基づいて、右出力チャネルオーディオ信号を生成することと、
    を含む、請求項5に記載の装置。
  12. 前記少なくとも1つの利得値は、前記少なくとも1つの入力オーディオ信号が、少なくとも1つの推定最大入力レベルに達するレベルを有している場合に、前記少なくとも2つの出力チャネルのそれぞれのレベルが、該少なくとも2つの出力チャネルのそれぞれの最大出力レベルを超えないように制御するように構成される、請求項4に記載の装置。
  13. 基準位置に対して少なくとも1つの音源の位置及び/又は向きを設けることと、
    前記少なくとも1つの音源に対応付けられた少なくとも1つの入力オーディオ信号を分析し、前記少なくとも1つの入力オーディオ信号のための少なくとも1つの最大入力レベルを推定することと、
    ユーザの位置及び/又は向きを決定することと、
    前記少なくとも1つの音源の位置及び/又は向きと、前記ユーザの位置及び/又は向きとの間の差を決定することと、
    前記少なくとも1つの最大入力レベルおよび前記差に基づいて、少なくとも1つの利得値を決定することであって、前記少なくとも1つの利得値は、前記少なくとも1つの入力オーディオ信号に対応付けられた第1周波数帯域のための、第1周波数帯域用レベル制御利得を含む、前記決定することと、
    前記少なくとも1つの入力オーディオ信号と、方向伝達関数対と、前記少なくとも1つの利得値と、前記少なくとも1つの音源の位置及び/又は向きに少なくとも部分的に基づいて、少なくとも2つの出力チャネルを合成することと、
    を含む方法。
  14. 前記設けることは、
    少なくとも2つのマイクオーディオ信号を分析し、前記少なくとも1つの音源の位置及び/又は向きを決定することと、
    前記少なくとも1つの入力オーディオ信号に対応付けられたメタデータから、前記少なくとも1つの音源の位置及び/又は向きを取得することと、
    をの少なくともいずれか含み、前記メタデータは、ある周波数帯域に対する方向パラメータを含む、
    請求項13に記載の方法。
  15. 前記基準位置に対する追跡部の位置および/または向きを決定することを更に含み、前記ユーザの位置及び/又は向きを決定することは、前記追跡部の位置および/または向きを決定することを含む、請求項13に記載の方法。
  16. 前記少なくとも1つの利得値を、前記少なくとも2つの出力チャネルのそれぞれの最大出力レベルに基づいて決定することを更に含む、請求項13に記載の方法。
  17. 前記少なくとも1つの入力オーディオ信号と、前記方向伝達関数対と、前記第1周波数帯域用レベル制御利得と、前記差に基づいて、前記少なくとも2つの出力チャネルを合成することを更に含む、請求項16に記載の方法。
  18. 前記入力オーディオ信号に対応付けられた第2周波数帯域に対する、第2周波数帯域用レベル制御利得;
    第1出力チャネルに対する、第1出力チャネル用レベル制御利得;
    第2出力チャネルに対する、第2出力チャネル用レベル制御利得;
    の少なくともいずれかを、前記差に基づいて決定することを更に含む、請求項16に記載の方法。
  19. 前記少なくとも2つの出力チャネルを合成することは、
    前記差を用いる第1頭部伝達関数と、モデル化された左耳位置の組合せに、左レベル制御利得値を乗算することに基づいて、左出力チャネルオーディオ信号を生成することと、
    前記差を用いる第の頭部伝達関数と、モデル化された右耳位置の組合せに、右レベル制御利得値を乗算することに基づいて、右出力チャネルオーディオ信号を生成することと、
    を含む、請求項17に記載の方法。
  20. 前記少なくとも1つの利得値は、前記少なくとも1つの入力オーディオ信号が、少なくとも1つの推定最大入力レベルに達するレベルを有している場合に、前記少なくとも2つの出力チャネルのそれぞれのレベルが、該少なくとも2つの出力チャネルのそれぞれの最大出力レベルを超えないように制御するように構成される、請求項17に記載の方法。
  21. 処理手段及び記憶手段を備える装置であって、前記記憶手段はプログラム命令を格納し、前記プログラム命令は、前記処理手段に実行されると、前記装置に、請求項13から20のいずれかに記載の方法を遂行させるように構成される、装置。
  22. 装置の処理手段に実行されると、前記装置に、請求項13から20のいずれかに記載の方法を遂行させるように構成されるプログラム命令を備える、コンピュータプログラム。
JP2022024358A 2016-09-28 2022-02-21 空間オーディオシステムにおける利得制御 Withdrawn JP2022062282A (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
GB1616479.0A GB2554447A (en) 2016-09-28 2016-09-28 Gain control in spatial audio systems
GB1616479.0 2016-09-28
JP2019537888A JP7229925B2 (ja) 2016-09-28 2017-09-14 空間オーディオシステムにおける利得制御
PCT/FI2017/050655 WO2018060549A1 (en) 2016-09-28 2017-09-14 Gain control in spatial audio systems

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2019537888A Division JP7229925B2 (ja) 2016-09-28 2017-09-14 空間オーディオシステムにおける利得制御

Publications (1)

Publication Number Publication Date
JP2022062282A true JP2022062282A (ja) 2022-04-19

Family

ID=57539784

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2019537888A Active JP7229925B2 (ja) 2016-09-28 2017-09-14 空間オーディオシステムにおける利得制御
JP2022024358A Withdrawn JP2022062282A (ja) 2016-09-28 2022-02-21 空間オーディオシステムにおける利得制御

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2019537888A Active JP7229925B2 (ja) 2016-09-28 2017-09-14 空間オーディオシステムにおける利得制御

Country Status (6)

Country Link
US (1) US10869155B2 (ja)
EP (1) EP3520216B1 (ja)
JP (2) JP7229925B2 (ja)
CN (1) CN109804559B (ja)
GB (1) GB2554447A (ja)
WO (1) WO2018060549A1 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2563606A (en) * 2017-06-20 2018-12-26 Nokia Technologies Oy Spatial audio processing
US10735882B2 (en) * 2018-05-31 2020-08-04 At&T Intellectual Property I, L.P. Method of audio-assisted field of view prediction for spherical video streaming
US11586411B2 (en) 2018-08-30 2023-02-21 Hewlett-Packard Development Company, L.P. Spatial characteristics of multi-channel source audio
US10595149B1 (en) * 2018-12-04 2020-03-17 Facebook Technologies, Llc Audio augmentation using environmental data
EP3668110B1 (en) 2018-12-12 2023-10-11 FalCom A/S Communication device with position-dependent spatial source generation, communication system, and related method
CN114531640A (zh) * 2018-12-29 2022-05-24 华为技术有限公司 一种音频信号处理方法及装置
JP2020137044A (ja) * 2019-02-25 2020-08-31 ソニーセミコンダクタソリューションズ株式会社 音声信号処理装置
US11545166B2 (en) 2019-07-02 2023-01-03 Dolby International Ab Using metadata to aggregate signal processing operations
GB2587335A (en) 2019-09-17 2021-03-31 Nokia Technologies Oy Direction estimation enhancement for parametric spatial audio capture using broadband estimates
CN112752190A (zh) * 2019-10-29 2021-05-04 骅讯电子企业股份有限公司 音频调整方法以及音频调整装置
GB2588801A (en) * 2019-11-08 2021-05-12 Nokia Technologies Oy Determination of sound source direction
US11231489B2 (en) * 2019-12-05 2022-01-25 Aeva, Inc. Selective subband processing for a LIDAR system
GB2590504A (en) 2019-12-20 2021-06-30 Nokia Technologies Oy Rotating camera and microphone configurations
US11264017B2 (en) * 2020-06-12 2022-03-01 Synaptics Incorporated Robust speaker localization in presence of strong noise interference systems and methods
US11930348B2 (en) 2020-11-24 2024-03-12 Naver Corporation Computer system for realizing customized being-there in association with audio and method thereof
KR102500694B1 (ko) 2020-11-24 2023-02-16 네이버 주식회사 사용자 맞춤형 현장감 실현을 위한 오디오 콘텐츠를 제작하는 컴퓨터 시스템 및 그의 방법
JP2022083445A (ja) * 2020-11-24 2022-06-03 ネイバー コーポレーション ユーザカスタム型臨場感を実現するためのオーディオコンテンツを製作するコンピュータシステムおよびその方法
CN113132882B (zh) * 2021-04-16 2022-10-28 深圳木芯科技有限公司 多动态范围压扩方法和系统
CN116700659B (zh) * 2022-09-02 2024-03-08 荣耀终端有限公司 一种界面交互方法及电子设备

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AUPO099696A0 (en) * 1996-07-12 1996-08-08 Lake Dsp Pty Limited Methods and apparatus for processing spatialised audio
AUPR647501A0 (en) 2001-07-19 2001-08-09 Vast Audio Pty Ltd Recording a three dimensional auditory scene and reproducing it for the individual listener
US7391877B1 (en) 2003-03-31 2008-06-24 United States Of America As Represented By The Secretary Of The Air Force Spatial processor for enhanced performance in multi-talker speech displays
WO2007080225A1 (en) * 2006-01-09 2007-07-19 Nokia Corporation Decoding of binaural audio signals
WO2007119330A1 (ja) 2006-03-13 2007-10-25 Matsushita Electric Industrial Co., Ltd. 音像定位装置
JP2008113118A (ja) * 2006-10-05 2008-05-15 Sony Corp 音響再生システムおよび音響再生方法
WO2009111798A2 (en) * 2008-03-07 2009-09-11 Sennheiser Electronic Gmbh & Co. Kg Methods and devices for reproducing surround audio signals
KR101845226B1 (ko) * 2011-07-01 2018-05-18 돌비 레버러토리즈 라이쎈싱 코오포레이션 적응형 오디오 신호 생성, 코딩 및 렌더링을 위한 시스템 및 방법
WO2013093565A1 (en) * 2011-12-22 2013-06-27 Nokia Corporation Spatial audio processing apparatus
WO2013186593A1 (en) * 2012-06-14 2013-12-19 Nokia Corporation Audio capture apparatus
US9648439B2 (en) * 2013-03-12 2017-05-09 Dolby Laboratories Licensing Corporation Method of rendering one or more captured audio soundfields to a listener
EP2809088B1 (en) * 2013-05-30 2017-12-13 Barco N.V. Audio reproduction system and method for reproducing audio data of at least one audio object
CN113630711B (zh) 2013-10-31 2023-12-01 杜比实验室特许公司 使用元数据处理的耳机的双耳呈现
JP6292040B2 (ja) 2014-06-10 2018-03-14 富士通株式会社 音声処理装置、音源位置制御方法及び音源位置制御プログラム
CN106537941B (zh) * 2014-11-11 2019-08-16 谷歌有限责任公司 虚拟声音系统和方法
US20180270571A1 (en) * 2015-01-21 2018-09-20 Harman International Industries, Incorporated Techniques for amplifying sound based on directions of interest
CN107996028A (zh) * 2015-03-10 2018-05-04 Ossic公司 校准听音装置
GB2549532A (en) 2016-04-22 2017-10-25 Nokia Technologies Oy Merging audio signals with spatial metadata
WO2017218973A1 (en) * 2016-06-17 2017-12-21 Edward Stein Distance panning using near / far-field rendering

Also Published As

Publication number Publication date
EP3520216A1 (en) 2019-08-07
GB2554447A (en) 2018-04-04
WO2018060549A1 (en) 2018-04-05
CN109804559B (zh) 2023-08-15
JP7229925B2 (ja) 2023-02-28
US20190289420A1 (en) 2019-09-19
GB201616479D0 (en) 2016-11-09
US10869155B2 (en) 2020-12-15
CN109804559A (zh) 2019-05-24
EP3520216A4 (en) 2020-04-22
EP3520216B1 (en) 2024-02-28
JP2019535216A (ja) 2019-12-05

Similar Documents

Publication Publication Date Title
JP7229925B2 (ja) 空間オーディオシステムにおける利得制御
US10397722B2 (en) Distributed audio capture and mixing
US10785589B2 (en) Two stage audio focus for spatial audio processing
US9820037B2 (en) Audio capture apparatus
US11812235B2 (en) Distributed audio capture and mixing controlling
US20180199137A1 (en) Distributed Audio Microphone Array and Locator Configuration
US11659349B2 (en) Audio distance estimation for spatial audio processing
JPWO2018060549A5 (ja)
JP7082126B2 (ja) デバイス内の非対称配列の複数のマイクからの空間メタデータの分析
US11284211B2 (en) Determination of targeted spatial audio parameters and associated spatial audio playback
US11122381B2 (en) Spatial audio signal processing
US10708679B2 (en) Distributed audio capture and mixing

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220221

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20230216