JP7170069B2 - オーディオ装置及びその動作方法 - Google Patents

オーディオ装置及びその動作方法 Download PDF

Info

Publication number
JP7170069B2
JP7170069B2 JP2020569731A JP2020569731A JP7170069B2 JP 7170069 B2 JP7170069 B2 JP 7170069B2 JP 2020569731 A JP2020569731 A JP 2020569731A JP 2020569731 A JP2020569731 A JP 2020569731A JP 7170069 B2 JP7170069 B2 JP 7170069B2
Authority
JP
Japan
Prior art keywords
audio
real
world
user
audio component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020569731A
Other languages
English (en)
Other versions
JP2021533593A (ja
Inventor
ネイサン スヴィラー-ラバスティー
イェロエン ジェラルドゥス ヘンリクス コッペンス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Publication of JP2021533593A publication Critical patent/JP2021533593A/ja
Application granted granted Critical
Publication of JP7170069B2 publication Critical patent/JP7170069B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1083Reduction of ambient noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1008Earpieces of the supra-aural or circum-aural type
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/01Hearing devices using active noise cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/15Determination of the acoustic seal of ear moulds or ear tips of hearing devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Description

本発明はシーン用のオーディオをレンダリングするための装置および方法に関し、特に、限定はしないが、拡張/仮想現実アプリケーションのオーディオシーン用のオーディオをレンダリングすることに関する。
オーディオビジュアルコンテンツに基づく経験の多様性および範囲は、近年、このようなコンテンツを利用および消費する新しいサービスおよび方法が継続的に開発および導入されるにつれて、大幅に増加している。特に、多くの空間的および対話的なサービス、アプリケーションおよび体験が、より複雑で没入型の体験を与えるために開発されている。
そのようなアプリケーションの例は、仮想現実(VR)および拡張現実(AR)アプリケーションであり、これらは急速に主流になりつつあり、多くのソリューションが消費者市場に向けられている。また、多くの標準化団体によって、多くの標準が開発されている。そのような標準化活動は、例えば、ストリーミング、ブロードキャスト、レンダリングなどを含むVR/ARシステムの様々な態様のための標準を積極的に開発している。
VRアプリケーションは、異なる世界/環境/シーンにいるユーザに対応するユーザ体験を提供する傾向があるのに対し、ARアプリケーションは、現在の環境にいるユーザに対応し、追加情報または仮想のオブジェクト若しくは情報が追加されるユーザ体験を提供する傾向がある。したがって、VRアプリケーションは、完全に包含的な合成的に生成されたワールド/シーンを提供する傾向があり、一方、ARアプリケーションは、ユーザが物理的に存在する現実のシーンにオーバーレイされる部分的に合成されたワールド/シーンを提供する傾向がある。しかしながら、これらの用語はしばしば互換的に使用され、高度の重複を有する。以下では、仮想現実/ VRという用語が、仮想現実と拡張現実の両方を示すために使用される。
一例として、ますます一般的になっているサービスは、ユーザが能動的にそしてダイナミックにシステムと対話してレンダリングのパラメータを変更し、これがユーザの位置と方向の動きや変化に適応するようにできるように、画像と音声を提供することである。多くのアプリケーションにおいて非常に魅力的な特徴は、例えば、観察者が、提示されているシーン内で動き回って「見回る」ことを可能にするなど、観察者の有効な視聴位置および視聴方向を変更する能力である。
そのような特徴は、特に、仮想現実体験がユーザに提供されることを可能にすることができる。これにより、ユーザは仮想環境内で(比較的)自由に動き回ることができ、ユーザの位置およびユーザが見ている場所を動的に変更することができる。典型的にはこのような仮想現実アプリケーションがシーンの3次元モデルに基づいており、このモデルは特定の要求されたビューを提供するために動的に評価される。このアプローチは例えば、コンピュータ及びコンソール用の一人称シューティングゲームのカテゴリにおけるようなゲームアプリケーションから周知である。
また、特に仮想現実アプリケーションでは、提示される画像が三次元画像であることが望ましい。実際、観察者の没入感を最適化するために、ユーザは、典型的には提示されたシーンを三次元シーンとして体験することが好ましい。実際、仮想現実体験は、好ましくはユーザが自分の位置、カメラ視点、および仮想世界に対する時間の瞬間を選択することを可能にするはずである。
典型的には、仮想現実アプリケーションは、シーンの所定のモデル、典型的には仮想世界の人工モデルに基づくことに本質的に制限される。いくつかのアプリケーションでは、現実世界のキャプチャに基づいて仮想現実体験を提供することができる。多くの場合、このようなアプローチは、現実世界のキャプチャから構築される現実世界の仮想モデルに基づく傾向がある。次いで、このモデルを評価することによって、仮想現実体験が生成される。
多くの現在のアプローチは最適には及ばない傾向があり、しばしば、高い計算リソースまたは通信リソース要件を有する傾向があり、および/または、例えば、低減された品質または制限された自由度を伴う最適には及ばないユーザ体験を提供する傾向がある。
アプリケーションの一例として、視聴者が360度(パノラマ)または180度ビデオのキャプチャを体験することを可能にする仮想現実眼鏡が市場に投入されている。これらの360度ビデオは、多くの場合、個々の画像が単一の球面マッピングへとつなぎ合わされるカメラリグを使用して事前にキャプチャされる。180または360ビデオのための一般的なステレオフォーマットは、上/下および左/右である。非パノラマステレオビデオと同様に、左目および右目ピクチャは、単一のH.264ビデオストリームの一部として圧縮される。1つのフレームをデコードした後、観察者は自分の頭部を回転させて自分の周囲の世界を見る。
視覚的レンダリングに加えて、ほとんどのVR/ARアプリケーションは、対応するオーディオ体験をさらに提供する。多くのアプリケーションでは、オーディオは、好ましくは、オーディオソースがビジュアルシーン内の対応するオブジェクトの位置に対応する位置から到着すると知覚される空間オーディオ体験を提供する。したがって、オーディオシーンおよびビデオシーンは、好ましくは、一貫性があり、両方とも完全な空間体験を提供すると知覚される。
オーディオについては、これまで、主にバイノーラルオーディオレンダリング技術を用いたヘッドフォン再生に焦点が当てられてきた。多くのシナリオでは、ヘッドフォン再生は、非常に没入型の個人化された体験をユーザに可能にする。頭部トラッキングを使用して、レンダリングはユーザの頭の動きに応答して行われることができ、これは、没入感を大幅に増加させる。
最近、市場および標準の議論の両方において、VR(およびAR)の「社会的」または「共有」の側面、すなわち、他の人々と経験を共有する可能性を含むユースケースが提案され始めている。これらは異なる場所にいる人々であってもよいが、同じ場所にいる人々(または両方の組み合わせ)であってもよい。例えば、同じ部屋にいる複数の人々は、VRコンテンツ/シーンに存在する各参加者の投影(オーディオ及びビデオ)を伴う同じVR体験を共有することができる。
最適な体験を提供するために、オーディオおよびビデオの知覚が密接に整合することが望ましく、特にARアプリケーションの場合には、これが現実世界のシーンとさらに整合することが望ましい。しかしながら、これは、ユーザの知覚に影響を及ぼし得る多くの問題があり得るので、しばしば達成することが困難である。例えば、実際には、ユーザは通常、完全に無音または暗いことを保証できない場所で装置を使用する。ヘッドセットは光及び音を遮断しようとするが、これは通常、不完全にしか達成されない。さらに、ARアプリケーションでは、ユーザがローカル環境を体験できることが体験の一部であることが多く、したがって、この環境を完全に遮断することは実際的ではない。
したがって、オーディオを生成するための、特に仮想/拡張現実体験/アプリケーションのための改善されたアプローチが有利である。特に、改善された動作、増加された柔軟性、低減された複雑さ、容易にされた実装、改善されたオーディオ体験、オーディオおよびビジュアルシーンのより一貫した知覚、ローカル環境におけるソースに対する低減されたエラー感度、改善された仮想現実体験、および/または改善されたパフォーマンスおよび/または動作を可能にするアプローチは有利である。
したがって、本発明は、好ましくは上記の欠点の1つ以上を単独でまたは任意の組み合わせで軽減、低減または排除しようとするものである。
本発明の一側面によれば、オーディオ機器が提供され、当該オーディオ機器は、オーディオシーンのオーディオデータを受信するための受信器であって、前記オーディオデータは、ユーザのオーディオ環境における実世界のオーディオソースを表す第1オーディオコンポーネントのオーディオデータを有する、受信器と、音の伝播を介して実世界のオーディオソースからユーザに到達する実世界のオーディオコンポーネントの第1プロパティを決定するための決定器と、前記第1オーディオコンポーネントのオーディオデータに応じて、前記ユーザによって受け取られる合成されたオーディオコンポーネントのターゲットプロパティを決定するためのターゲットプロセッサであって、前記合成されたオーディオコンポーネントは、音の伝播を介してユーザによって受け取られる実世界のオーディオコンポーネントと、ユーザによって受け取られる第1オーディオコンポーネントのレンダリングされるオーディオとの組み合わせである、ターゲットプロセッサと、前記ターゲットプロパティと前記第1プロパティとに応じて、前記第1オーディオコンポーネントのオーディオデータによって示される前記第1オーディオコンポーネントのプロパティを修正することによって、前記第1オーディオコンポーネントのレンダリングプロパティを決定するためのアジャスタとレンダリングプロパティに応じて第1オーディオコンポーネントをレンダリングするためのレンダラと、を有する。
本発明は、多くの実施形態において改善されたユーザ体験を提供することができ、特に、ローカルにも存在するオーディオソースのためにオーディオデータがレンダリングされるシナリオにおいて改善されたオーディオ知覚を提供することができる。オーディオソースは、オーディオが発生する現実世界の人物または物体であってもよい。オーディオシーンの改善された、より自然な知覚が典型的に達成され、多くのシナリオでは、ローカルな現実世界のソースから生じる干渉および不整合が軽減または低減される。このアプローチは、仮想現実(VR)(拡張現実(AR)を含む)アプリケーションに特に有利であり得る。これは、例えば、複数の参加者が同じ場所に存在するソーシャルVR/ARアプリケーションのための改善されたユーザ体験を提供することができる。
このアプローチは、多くの実施形態において、低い複雑さおよびリソース使用を維持しながら、改善されたパフォーマンスを提供することができる。
第1オーディオコンポーネント及び実世界のオーディオコンポーネントは同一のローカルオーディオソースから発生する場合があり、第1オーディオコンポーネントは、ローカルのオーディオソースからのオーディオのオーディオ符号化表現である。第1オーディオコンポーネントは、典型的にはオーディオシーン内の位置にリンクされてもよい。オーディオシーンは、特に、VR/ARオーディオシーンであってもよく、仮想シーンの仮想オーディオを表してもよい。
ユーザによって受け取られる合成されたオーディオコンポーネントのターゲットプロパティは、ユーザに到達する音と前記実世界のオーディオソースに由来する音との組み合わせである合成された音のターゲットプロパティであってもよい(それは、オーディオ環境での音の伝播を介して直接ユーザに届くのか、レンダリングされたオーディオを介して(したがって、受信されるオーディオデータを介して)ユーザに届くのかに関わらず、実世界のオーディオソースからの音に対する望ましいプロパティを示しているだろう)。
本発明の任意選択の特徴によれば、ターゲットプロパティは、合成されたオーディオコンポーネントのターゲット知覚位置である。
このアプローチは、受信されたオーディオデータのオーディオシーンにも存在するローカルオーディオソースからの干渉によって引き起こされる空間歪みが低減された、オーディオシーンの改善された空間表現を提供することができる。第1のプロパティは、現実世界のオーディオソースの位置表示であってもよい。ターゲットプロパティは、オーディオシーンおよび/またはローカルオーディオ環境におけるターゲット知覚位置であってもよい。レンダリングプロパティは、第1のオーディオコンポーネントのレンダリングのレンダリング位置プロパティである場合がある。位置は、例えば共通の座標系に対する絶対位置であってもよいし、相対位置であってもよい。
本発明の任意選択の特徴によれば、ターゲットプロパティは、合成されたオーディオコンポーネントのレベルである。
このアプローチは、受信されたオーディオデータのオーディオシーンにも存在するローカルオーディオソースからの干渉によって引き起こされるレベル歪みが低減された、オーディオシーンの改善された表現を提供することができる。第1のプロパティは、実世界のオーディオコンポーネントのレベルであり、レンダリングプロパティはレベルプロパティであることができる。レベルはまた、オーディオレベル、信号レベル、振幅レベル、またはラウドネスレベルと呼ばれてもよい。
本発明の任意選択の特徴によれば、調整器は、レンダリングプロパティを、ユーザによって受け取られる実世界オーディオコンポーネントのレベルの関数として決定された量だけ低減されたオーディオデータによって示される第1のオーディオコンポーネントのレベルに対応するレンダリングレベルとして決定するように構成される。
これは、多くの実施形態において改善されたオーディオ知覚を提供することができる。
本発明の任意選択の特徴によれば、ターゲットプロパティは、合成されたオーディオコンポーネントの周波数分布である。
このアプローチは、受信されたオーディオデータのオーディオシーンにも存在するローカルオーディオソースからの干渉によって引き起こされる周波数歪みが低減された、オーディオシーンの改善された表現を提供することができる。例えば、ユーザが外部の音を部分的にしか減衰させないヘッドフォンを装着している場合、ユーザは、同じ部屋のスピーカのレンダリングされたバージョンと、部屋のユーザに直接到達しているバージョンとの両方を聞くことができる。ヘッドフォンは、外部の音の周波数依存性減衰を有してもよく、レンダリングされるオーディオは、合成された知覚音が所望の周波数コンテンツを有し、外部の音の周波数依存性減衰を補償するように適応されてもよい。
第1のプロパティは、実世界オーディオコンポーネントの周波数分布であってもよく、レンダリングプロパティは、周波数分布プロパティであってもよい。周波数分布は周波数スペクトルと呼ばれることもあり、相対的な測度であってもよい。例えば、周波数分布は、オーディオコンポーネントの周波数分布に対する周波数応答/伝達関数によって表すことができる。
本発明の任意選択の特徴によれば、レンダラは、第1のオーディオコンポーネントにフィルタを適用するように構成され、このフィルタは、現実世界のオーディオソースからユーザへの音響経路の周波数応答に相補的な周波数応答を有する。
これは、多くのシナリオにおいて、改善されたパフォーマンスおよびオーディオ知覚を提供し得る。
本発明の任意選択の特徴によれば、決定器は、第1のオーディオコンポーネントをレンダリングするために使用されるヘッドフォンのための外部音の音響伝達特性に応答して第1の特性を決定するように構成される。
これは、多くのシナリオにおいて、改善されたパフォーマンスおよびオーディオ知覚を提供し得る。音響伝達特性は、音響伝達関数の特性であってもよい(または実際に音響伝達関数であってもよい)。音響伝達関数/特性は、ヘッドフォンの漏れに対する音響伝達関数/特性を含み得るか、またはそれから成る。
本発明の任意選択の特徴によれば、音響伝達特性は、周波数応答およびヘッドフォン漏れ特性のうちの少なくとも1つを含む。
これは、多くのシナリオにおいて、改善されたパフォーマンスおよびオーディオ知覚を提供し得る。
本発明の任意選択の特徴によれば、決定器は、ユーザのオーディオ環境を捕捉するマイクロフォン信号に応じて第1の特性を決定するように構成される。
これは、多くのシナリオにおいて、改善されたパフォーマンスおよびオーディオ知覚を提供し得る。これは、特に、多くの実施形態において、現実世界のオーディオコンポーネントの特性の低複雑度の、および/または、正確な決定を可能にし得る。マイクロフォン信号は、多くの実施形態では、第1のオーディオコンポーネントのレンダリングに使用されるヘッドフォン内に配置されたマイクロフォン用であってもよい。
本発明の任意選択の特徴によれば、調整器は、オーディオの差分を検出するための心理音響閾値に応じてレンダリング特性を決定するように構成される。
これは、多くの実施形態において、許容できないほど性能を犠牲にすることなく、複雑さを低減することができる。
本発明の任意選択の特徴によれば、決定器は、オーディオ環境の画像内のオーディオソースに対応するオブジェクトの検出に応じて第1の特性を決定するように構成される。
これは、多くのVR/ARアプリケーションのような多くの実際的なアプリケーションにおいて特に有利である。
本発明の任意選択の特徴によれば、受信機は、第1のオーディオコンポーネントと、ユーザのオーディオ環境をキャプチャするマイクロフォン信号との間の相関に応じて、第1のオーディオコンポーネントを実世界オーディオソースに対応するものとして識別するように構成される。
これは、多くの実用的な用途において特に有利であり得る。
本発明の任意選択の特徴に従って、受信機は、オーディオシーンデータのメタデータに応じて、現実世界のオーディオソースに対応するものとして第1のオーディオコンポーネントを識別するように配置される。
これは、多くの実用的な用途において特に有利であり得る。
本発明の任意選択の特徴によれば、オーディオデータは、オーディオ環境に対応する拡張現実オーディオシーンを表す。
本発明の一側面によれば、オーディオデータを処理する方法が提供され、当該方法は、オーディオシーンのオーディオデータを受信するステップであって、前記オーディオデータは、ユーザのオーディオ環境における実世界のオーディオソースを表す第1のオーディオコンポーネントのオーディオデータを有する、ステップと、音の伝播を介して実世界のオーディオソースからユーザに到達する実世界のオーディオコンポーネントの第1のプロパティを決定するステップと、前記第1のオーディオコンポーネントのオーディオデータに応じて、前記ユーザによって受け取られる合成されたオーディオコンポーネントのターゲットプロパティを決定するステップであって、前記合成されたオーディオコンポーネントは、音の伝播を介してユーザによって受け取られる実世界のオーディオコンポーネントと、ユーザによって受け取られる前記第1のオーディオコンポーネントのレンダリングされたオーディオとの組み合わせである、ステップと、前記ターゲットプロパティと前記第1のプロパティに応じて、前記第1のオーディオコンポーネントのオーディオデータによって示される前記第1のオーディオコンポーネントのプロパティを変更することによって、前記第1のオーディオコンポーネントのためのレンダリングプロパティを決定するステップと、前記レンダリングプロパティに応じて、前記第1のオーディオコンポーネントをレンダリングステップと、を有する。
本発明のこれらおよび他の態様、特徴および利点は以下に記載される実施形態から明らかになり、それを参照して説明される。
仮想現実体験を提供するためのクライアントサーバ構成の例を示す図。 本発明のいくつかの実施形態によるオーディオ装置の要素の例を示す図。
ユーザが仮想世界または拡張世界で動き回ることを可能にする仮想(拡張を含む)体験はますます一般的になりつつあり、サービスは、そのような要求を満たすために開発されつつある。多くのこのようなアプローチでは、視覚的および音声データがユーザ(または観察者)の現在のポーズを反映するように動的に生成される場合がある。
この分野では、配置およびポーズという用語は、位置および/または方向/向きに関する一般的な用語として使用される。例えばオブジェクト、カメラ、頭部またはビューの位置および方向/向きの組み合わせを、ポーズまたは配置と呼ぶ場合がある。したがって、配置またはポーズ表示は、通常、対応するオブジェクトの位置/場所または方向/向きの個々の特性を記述する各値/成分を有する6つの値/成分/自由度を含み得る。もちろん、多くの状況では、配置またはポーズは、例えば、1つまたは複数の成分が固定または無関係であると見なされる場合には、より少ない成分によって表すことができる(例えば、すべてのオブジェクトが同じ高さにあり、水平方向を有すると見なされる場合、4つの成分でオブジェクトのポーズの完全な表現を提供することができる)。以下では、ポーズという用語は、1乃至6つの値(可能な最大自由度に対応する)によって表すことができる位置および/または向きを指すために使用される。
多くのVRアプリケーションは、最大自由度、すなわち、位置および向きのそれぞれの3つの自由度を有するポーズに基づいており、その結果、合計6つの自由度が得られる。したがって、ポーズは6つの自由度を表す6つの値のセットまたはベクトルによって表すことができ、したがって、ポーズベクトルは、三次元位置および/または三次元方向表示を与えることができる。しかしながら、他の実施形態では、ポーズがより少ない値によって表されてもよいことが理解されるのであろう。
観察者に最大自由度を提供することに基づくシステムまたはエンティティは、通常、6自由度(6DoF)を有すると呼ばれる。多くのシステムおよびエンティティは、方向または位置のみを提供し、これらは、典型的には3自由度(3DoF)を有するものとして知られている。
典型的には、仮想現実アプリケーションは、左目及び右目のための別々のビュー画像の形で三次元出力を生成する。次いで、これらは、典型的にはVRヘッドセットの個々の左目ディスプレイおよび右目ディスプレイなどの適切な手段によってユーザに提示され得る。他の実施形態では、1つ以上のビュー画像が、例えば、自動立体ディスプレイ上に提示されてもよく、実際には、幾つかの実施形態では、(例えば、従来の2次元ディスプレイを使用して)単一の2次元画像のみが生成されてもよい。
同様に、所与の観察者/ユーザ/リスナーのポーズに対して、シーンのオーディオ表現が提供される場合がある。オーディオシーンは、典型的には、オーディオソースが所望の位置から生じると知覚される空間体験を提供するようにレンダリングされる。オーディオソースはシーン内で静止している可能性があるため、ユーザのポーズの変化によって、ユーザのポーズに対するオーディオソースの相対位置が変化する。したがって、オーディオソースの空間的知覚は、ユーザに対する新しい位置を反映するように変化しなければならない。オーディオレンダリングは、ユーザのポーズに応じて適宜調整される。
多くの実施形態では、オーディオレンダリングがヘッドフォンを装着しているユーザに所望の空間効果を提供するために、頭部関連伝達関数( Head Related Transfer Function:HRTF)またはバイノーラルルームインパルス応答( Binaural Room Impulse Response: BRIR)(または同様のもの)を使用するバイノーラルレンダリングである。しかしながら、幾つかのシステムでは、オーディオは、代わりに、ラウドスピーカシステムを用いてレンダリングされてもよく、各ラウドスピーカに対する信号は、ユーザにおける全体的な効果が所望の空間的経験に対応するようにレンダリングされてもよいことが理解されよう。
観察者またはユーザのポーズ入力は、それぞれのアプリケーションで異なる方法で決定されることができる。多くの実施形態では、ユーザの物理的な動きを直接追跡することができる。例えば、ユーザエリアを測量するカメラがユーザの頭部(または目)を検出し、追跡することができる。多くの実施形態では、ユーザは、外部および/または内部手段によって追跡することができるVRヘッドセットを装着することができる。例えば、ヘッドセットは、ヘッドセット、したがって頭部の移動および回転に関する情報を提供する加速度計およびジャイロスコープを備えることができる。いくつかの例では、VRヘッドセットが信号を送信することができ、又は外部センサがVRヘッドセットの位置を決定することを可能にする(例えば視覚的な)識別子を備えることができる。
いくつかのシステムでは、観察者ポーズは、マニュアルの手段によって、例えば、ユーザがジョイスティックまたは同様のマニュアル入力を手動で制御することによって、提供されてもよい。例えば、ユーザは、一方の手で第1のアナログジョイスティックを制御することによって仮想シーン内で仮想観察者を手動で動かし、他方の手で第2のアナログジョイスティックを手動で動かすことによって仮想観察者が見ている方向を手動で制御することができる。
いくつかのアプリケーションでは、手動アプローチと自動アプローチとの組み合わせを使用して、入力される観察者ポーズを生成することができる。例えば、ヘッドセットが頭部の向きを追跡することができ、シーン内の観察者の動き/位置は、ジョイスティックを使用してユーザによって制御されることができる。
システムによっては、VRアプリケーションは、例えば、いかなる遠隔のVRデータまたは処理をも使用しない、あるいはそれらに何らアクセスしない、スタンドアロン装置によって、観察者にローカルに提供されることができる。例えば、ゲームコンソールのような装置が、シーンデータを記憶するための記憶装置と、観察者ポーズを受信/生成するための入力と、シーンデータから対応する画像を生成するためのプロセッサとを備えることができる。
他のシステムでは、VRアプリケーションは、観察者から遠隔で実装され、実行されることができる。例えば、ユーザにローカルな装置は、観察者ポーズを生成するためにデータを処理する遠隔装置に送信される動き/ポーズデータを検出/受信することができる。次いで、遠隔装置は、シーンを記述するシーンデータに基づいて、観察者ポーズのための適切なビュー画像を生成することができる。次に、ビュー画像は、それらが提示される観察者に対してローカルな装置に送信される。例えば、遠隔装置は、ローカル装置によって直接提示されるビデオストリーム(典型的にはステレオ/3Dビデオストリーム)を直接生成することができる。同様に、遠隔装置は、仮想オーディオ環境を反映するオーディオシーンを生成することができる。これは、多くの実施形態では、仮想オーディオ環境における異なるオーディオソースの相対位置に対応するオーディオ信号を生成することによって、例えば、頭部ポーズに対するこれらの現在位置に対応する個々のオーディオコンポーネントにバイノーラル処理を適用することによって、行われてもよい。したがって、このような例では、ローカル装置が動きデータを送信し、受信されたビデオおよびオーディオデータを提示する以外は、いかなるVR処理も実行しなくてもよい。
多くのシステムでは、機能がローカル装置および遠隔装置にわたって分散され得る。例えば、ローカル装置は、受信した入力およびセンサデータを処理して、遠隔VR装置に連続的に送信される観察者ポーズを生成することができる。次いで、遠隔VR装置は、対応するビュー画像を生成し、これらを提示のためにローカル装置に送信することができる。他のシステムでは、遠隔VR装置がビュー画像を直接生成しなくてもよいが、関連するシーンデータを選択し、これをローカル装置に送信してもよく、そしてローカル装置が、提示されるビュー画像を生成してもよい。例えば、遠隔VR装置は最も近いキャプチャポイントを識別し、対応するシーンデータ(例えば、キャプチャポイントからの球面画像および奥行きデータ)を抽出し、これをローカル装置に送信することができる。次いで、ローカル装置は、受信したシーンデータを処理して、特定の現在のビューポーズのための画像を生成することができる。
同様に、遠隔VRデバイスは、オーディオシーンを表すオーディオデータを生成し、オーディオシーン内の異なるオーディオソースに対応するオーディオコンポーネント/オブジェクトを、これらの位置を示す位置情報(これは、例えば、動くオブジェクトに対して動的に変化し得る)とともに、送信し得る。次いで、ローカルVRデバイスは、例えば、オーディオコンポーネントのためのオーディオソースの相対位置を反映する適切なバイノーラル処理を適用することによって、そのような信号を適切にレンダリングすることができる。
図1は、遠隔VRサーバ101が、例えば、インターネットのようなネットワーク105を介してクライアントVR装置103と連動するVRシステムの例を示す。遠隔VRサーバ101は、潜在的に多数のクライアントVR装置103を同時にサポートするように構成されてもよい。
そのようなアプローチは、多くのシナリオにおいて、例えば、異なる装置に対する複雑さとリソース要求、通信要求などの間の改善されたトレードオフを提供することができる。例えば、観察者ポーズおよび対応するシーンデータは、リアルタイムの低遅延体験を提供するために、観察者ポーズおよび受信されたシーンデータをローカルに処理するローカル装置を用いて、より大きな間隔で送信されてもよい。これは、例えば、必要とされる通信帯域幅を大幅に減少させつつ、低遅延体験を提供し、シーンデータが集中的に記憶され、生成され、維持されることを可能にする。これは、例えば、VR体験が複数の遠隔装置に提供されるアプリケーションに適し得る。
図2は、オーディオシーンのための受信されたオーディオデータに基づいてオーディオをレンダリングするためのオーディオ装置を示す。装置は、シーンのオーディオ表現を提供するオーディオを生成するように構成されてもよく、特に、VR/AR環境のオーディオ表現を提供するためにVRアプリケーションにおいて使用されてもよい。この装置は、当業者に知られているように、シーンの視覚的表現を生成する装置によって補完されてもよい。したがって、装置は、空間オーディオおよびビデオの協調された提供を伴う没入型VR/AR体験を提供するシステムの一部を形成することができる。図2の装置は、図1のクライアントVRデバイス103の一部であってもよい。
図2の装置は、特定の例ではVR(AR)体験のためのシーンに対応するオーディオシーンのためのオーディオデータを受信し、処理するように構成される。例えば、ユーザの頭の動き/ポーズが追跡され、ユーザのポーズに対応する3Dビデオ画像および空間オーディオを生成することに進むローカルまたは遠隔VRサーバにフィードすることができる。対応する空間オーディオデータは、図2の装置によって処理されることができる。
オーディオデータは、複数のオーディオコンポーネントまたはオブジェクトのデータを含むことができる。オーディオは、例えば、レンダリングされるべき所与のオーディオコンポーネントのための符号化されたオーディオとして表されてもよい。オーディオデータは、オーディオコンポーネントのソースの位置を示す位置データをさらに含むことができる。位置データは、例えば、シーン内のオーディオソースの位置を定める絶対位置データを含むことができる。ローカル装置は、そのような実施形態では、現在のユーザポーズに対するオーディオソースの相対位置を決定することができる。したがって、受信された位置データは、ユーザの動きとは無関係であってもよく、オーディオソースの相対位置は、ユーザに対するオーディオソースの位置を反映するようにローカルで決定されてもよい。したがって、そのような相対位置は、ユーザが発信元のオーディオソースを知覚すべき場所の相対位置を示すことができ、したがって、ユーザの頭の動きに応じて変化する。他の実施形態では、オーディオデータは、相対位置を直接記述する位置データを含むことができる。
多くのこのような実用的なシステムおよびアプリケーションの問題は、一般的な環境におけるオーディオがユーザ体験に影響を及ぼし得ることである。実際には、ローカル環境内のオーディオを完全に抑制することは困難である傾向があり、実際にはヘッドフォンを装着している場合であっても、ローカル環境から知覚されるオーディオへの知覚可能な寄与が一般に存在する。場合によっては、このような音は、例えば、アクティブノイズキャンセレーションを使用して抑制されることができる。しかしながら、これは、VRシーンにおいて直接的な対応物を有するオーディオソースに対しては実用的ではない。
実際、現実の環境音とオーディオシーン音との間の干渉の問題は、例えば多くのAR体験のような、ローカル環境も反映するVR体験を提供するアプリケーションにとって特に問題である。
例えば、同じローカル環境(例えば、部屋)内の複数の人々が共通の経験を共有するVRの「ソーシャル」または「共有」態様を含むアプリケーションが追求されている。このような「ソーシャル」または「共有」ユースケースは、例えばMPEGにおいて提案されており、現在のMPEG-I標準化活動のための主要な経験クラスの1つである。そのようなアプリケーションの例は、何人かの人々が同じ部屋にいて、VRコンテンツにも存在する各参加者の投影(オーディオ及びビデオ)と共に、同じVR体験を共有する場合である。
そのようなアプリケーションでは、VR環境が各参加者に対応するオーディオソースを含む場合があるが、これに加えて、ユーザは例えば、ヘッドフォンの典型的な漏れのために、他の参加者を直接聞くこともできる。この干渉は、ユーザ体験に有害であり得、参加者の没入を低減し得る。しかし、実際の音成分にノイズキャンセルを行うことは非常に困難であり、計算負荷が高い。例えば、ほとんどの典型的なノイズキャンセリング技術は、ヘッドフォン内のマイクロフォンに基づいており、マイクロフォン信号内の任意の実世界の信号成分を最小化(好ましくは完全に減衰)するためにフィードバックループを使用している(したがって、マイクロフォン信号は、ループを駆動するエラー信号とみなされる)。しかしながら、そのようなアプローチは、オーディオソースが知覚されるオーディオに存在することが望まれる場合には実現可能ではない。
図2の装置は、多くの実施形態及びシナリオにおいて、VRシーンにも存在するローカルオーディオの存在下で改善されたユーザ体験を提供することができる。
図2の装置の受信機201は、前述したように、オーディオシーンのオーディオデータを受信する。この例では、オーディオデータは、特に、ユーザのオーディオ環境に存在する実世界のオーディオソースを表す第1のオーディオコンポーネントまたはオブジェクトを含む。したがって、第1のオーディオコンポーネントは、例えば、ローカルに(例えば、同じ部屋に)存在するローカルスピーカ/参加者などのローカルの実世界オーディオソースのためのオーディオ信号データおよび位置データを提供することができる。
装置は特に、オーディオシーンの体験をユーザに提供するために、オーディオシーンデータをレンダリングするように構成されることができる。しかしながら、装置は単に、オーディオシーンを直接レンダリングするのではなく、オーディオデータによって表されるオーディオシーンおよび実世界のローカル環境の両方に存在するオーディオソースに対して受け取られ得る直接的な音に対して結果が補償されるように、レンダリングの前にオーディオデータ/コンポーネントを(事前に)処理するように構成される。前述のように、VR(ARを含む)シナリオでは、外部の実際の音がレンダリングされた仮想音および仮想コンテンツのコヒーレンスに干渉する可能性があり、実世界の音を前処理/補償する際の図2の装置のアプローチは、これを軽減し、大幅に改善されたオーディオ体験を提供することができる。
仮想という用語は、以下において、受信されたオーディオデータによって表されるオーディオシーンのオーディオコンポーネントとソースを意味し、外部環境のオーディオソースとコンポーネントは実世界という用語によって参照される。現実世界の音は、対応する現実世界のオーディオソースから現実世界の(物理的な)音の伝播によってユーザ(の耳)に伝播し、したがって、空気および/または媒体(材料)における振動として、ユーザによって受け取られ、聞かれる。
図2の装置は、例えばノイズキャンセレーションによって実世界の音を動的に制御または修正することに基づいていない。むしろ、このアプローチは、レンダリングされる仮想サウンドがユーザによる全体的な知覚に現実世界のサウンドが及ぼす影響が補償されるように、現実世界のサウンドに基づいてレンダリングされる仮想サウンドを修正しようとすることに基づいている。採用されるアプローチは、典型的には、仮想オーディオソースレンダリングと実世界の音の組合せ効果が、受信されたオーディオデータによって記述される仮想オーディオソースに対応するユーザにおいて知覚される効果をもたらすように、仮想オーディオソースのレンダリングを補償することに基づいている。
このアプローチは特に、ユーザの所望の知覚を反映するターゲットプロパティを決定する。ターゲットプロパティは、受信されたオーディオデータから決定され、典型的には、オーディオデータによって定義されるオーディオコンポーネントのプロパティ、例えば、オーディオソースの所望のレベルまたは位置であってもよい。ターゲットプロパティは特に、受信されたオーディオデータによって定義される信号成分のプロパティに対応し得る。従来のアプローチでは、オーディオコンポーネントは、このプロパティでレンダリングされ、たとえば、オーディオコンポーネントのオーディオデータによって定義された位置またはレベルから発信されたものとしてレンダリングされる。しかしながら、図2の装置では、この値が代わりに、同じソースに対する仮想オーディオコンポーネントと実世界オーディオコンポーネントとの組み合わせに対応する合成オーディオコンポーネントに対するターゲットプロパティとして使用されてもよく、すなわち、ターゲットプロパティは、仮想オーディオコンポーネントのレンダリングに対するターゲットプロパティではなく、仮想オーディオコンポーネントと実世界オーディオコンポーネントとのユーザの耳における組み合わせに対するターゲットプロパティである。したがって、適切な受信オーディオデータのレンダリングによってユーザの耳で生成されるサウンドと、現実世界のサウンド伝播を介してユーザに到達する現実世界のサウンドとの組み合わせのためのターゲットプロパティである。したがって、この組み合わせは、ユーザに対してレンダリングされた仮想オーディオと、ユーザが直接聞く実世界の音の組み合わせを反映する。
したがって、ターゲットプロパティを決定した後、装置は、実世界オーディオコンポーネントのプロパティまたはレベルなどの実世界オーディオコンポーネントのプロパティをさらに決定/推定する。次いで、装置は、実世界オーディオコンポーネントおよびターゲットオーディオコンポーネントの推定されるプロパティに基づいて、仮想オーディオコンポーネントのレンダリングのための修正または調整されたプロパティを決定することに進むことができる。修正されたプロパティは、特に、合成されたオーディオコンポーネントがターゲットプロパティにより近いプロパティを有するように、理想的にはターゲットプロパティに一致するように、決定されてもよい。したがって、仮想オーディオコンポーネントの修正されたプロパティは、実世界オーディオコンポーネントの存在を補償して、オーディオデータによって定義されたものにより近い合成効果をもたらすように生成される。低複雑度の例として、仮想オーディオコンポーネントのレベルは、合成されたオーディオレベルがオーディオデータによって定義されたレベルに一致する(または少なくともより近くなる)ように、実世界オーディオコンポーネントのレベルを補償するために低減されることができる。
したがって、このアプローチは、現実のサウンドを直接コントロールするのではなく、これらの効果/寄与(例えば、外部からの音漏れによる)を心理音響レベルで補正することに基づいており、現実のサウンドから知覚される干渉が低減されることになる。これは、多くの実施形態において、より一貫したコヒーレントなサウンドステージ知覚を提供することができる。例えば、オーディオオブジェクトが仮想環境において角度Y°でレンダリングされるべきであり、実世界の同等のオーディオソースが方向X°から放射している場合、仮想オーディオコンポーネントの位置プロパティは、Z°>Y°>X°となるような位置Z°でレンダリングされるように修正され、それによって、実世界オーディオによって引き起こされる誤った位置効果に対抗する。強度補償の場合、受信されたオーディオデータに従う仮想オーディオコンポーネントが仮想環境において|Y|の強度でレンダリングされるべきであり、実世界同等オーディオソースが|X|の強度で実世界オーディオコンポーネントを放射している場合、仮想オーディオコンポーネントは|Z|<|Y|で、理想的には|Y|=|X|+|Z|となるように、低減された強度|Z|でレンダリングされるように修正される。
図2のアプローチの特別な利点は、多くの実用的なシナリオおよび実施形態において、低複雑性および低減された計算資源要求で実質的に改善された性能を可能にすることである。実際、多くの実施形態では、レンダリング前の前処理が単に、ゲイン/レベルを変更するなどのパラメータを変更することに対応することができる。多くの実施形態では、詳細な信号処理を実行する必要はなく、プロセスは単に、レベルまたは位置などの一般的なプロパティを調整するだけでよい。
この装置は、具体的には、実世界のオーディオソースに対する現世界のオーディオコンポーネントの第1のプロパティを推定するように構成された推定器203を備える。
推定器は、音響伝播を介して現実世界のオーディオソースからユーザ(特にユーザの耳)に到達する現実世界のオーディオコンポーネントのプロパティとして第1のプロパティを推定することができる。
したがって、音の伝播を介して現実世界のオーディオソースからユーザ(特にユーザの耳)に到達する現実世界のオーディオコンポーネントは、例えば音響伝達関数によって表され得る音響サウンドの伝播チャネルを介して受信される現実世界のオーディオソースからのオーディオを具体的に反映し得る。
音の伝播(特に、現実世界の音の伝播)は、空気中および/または他の媒体中の振動による音の伝播である。これは、複数の経路及び反射を含む場合がある。音は空気および/または別の媒体(または複数の媒体)を通って伝わり、人または動物の耳に到達したときに聞こえる振動と考えることができる。音の伝播は、空気及び/又は別の媒体を通って伝播する振動によるオーディオの伝播と考えることができる。
現実世界のオーディオコンポーネントは、オーディオがレンダリングされなかった場合にユーザに聞こえる現実世界のオーディオソースからのオーディオを表すと考えることができる。現実世界のオーディオコンポーネントは、音の伝播によってのみユーザに到達するオーディオコンポーネントであってもよい。具体的には、実世界のオーディオコンポーネントは物理的振動のみを含み、電気的または他の信号領域変換、キャプチャ、記録、または任意の他の変化を伴わない、音伝播チャネルを介して通信/伝播されることによって、実世界オーディオソースからユーザに到達するオーディオコンポーネントであってもよい。これは、完全に音響的なオーディオコンポーネントを表すことができる。
実世界オーディオコンポーネントは、リアルタイムオーディオコンポーネントであってもよく、実世界オーディオソースとユーザ(または特にユーザの耳)との間の時間差は、実世界オーディオソースからユーザへの空気/媒体を通って伝播する振動の速度から生じる遅延の音響遅延によって与えられる(実質的にはそれに等しい)ように、特にリアルタイムで受け取られることができる実世界のオーディオコンポーネントは、最初のオーディオコンポーネントがレンダリングされていない場合に、実世界のオーディオソースの聞こえている内容に対応するオーディオコンポーネントである可能性がある。
第1のプロパティは例えば、現実世界のオーディオコンポーネントのレベル、位置または周波数コンテンツ/分布であってもよい。現実世界のオーディオコンポーネントのプロパティは、特に、ユーザに、特にユーザの耳に到達するときのオーディオコンポーネントのプロパティであってもよく、あるいは、例えば、オーディオソースにおけるオーディオコンポーネントのプロパティであってもよい。
多くの実施形態では、プロパティは、環境内に配置されたマイクロフォンによって捕捉されたマイクロフォン信号、例えば、ヘッドフォン内に配置されたマイクロフォンによって捕捉されたオーディオコンポーネントのレベルから決定されてもよい。他の実施形態では、プロパティは、例えば、現実世界のオーディオソースの位置に対応する位置プロパティなど、他の態様で決定されてもよい。
受信機201および推定器203は、ユーザによって受け取られるオーディオソースのための合成されたオーディオコンポーネントのためのターゲットプロパティを決定するように構成されるターゲットプロセッサ205に結合される。したがって、合成されたオーディオコンポーネントは、ユーザによって受け取られたときの、実世界のオーディオコンポーネントと、同じオーディオソースに対する仮想オーディオコンポーネントのレンダリングされたオーディオとの組み合わせである。したがって、ターゲットプロパティは、ユーザによって知覚される合成信号の所望の特性を反映することができる。
ターゲットプロパティは、受信されたオーディオデータから決定され、オーディオデータによって定義される仮想オーディオコンポーネントのプロパティとして具体的に決定されてもよい。例えば、それは、オーディオデータによって定義される仮想オーディオコンポーネントのレベルまたは位置であってもよい。仮想オーディオコンポーネントのレンダリングのためのこのプロパティは、オーディオシーン内の仮想オーディオコンポーネントを定義/記述し、レンダリング時にオーディオシーンにおける仮想オーディオコンポーネントの意図される知覚プロパティを反映する。
ターゲットプロセッサ205は、受信機201にも結合されている調整器207に結合されている。調整器207は、仮想オーディオコンポーネントのプロパティを、オーディオデータによって示される値から、次にレンダリングに使用される変更された値に変更することによって、仮想オーディオコンポーネントのレンダリングプロパティを決定するように構成される。修正された値は、ターゲットプロパティと実世界オーディオコンポーネントの推定されたプロパティとに基づいて決定される。例えば、仮想オーディオコンポーネントの位置は、オーディオデータによって示される所望の位置と、ユーザポーズに対する実世界オーディオソースの位置とに基づいて(また、例えば、実世界オーディオコンポーネントの推定されるレベルに基づいて)設定されてもよい。
調整器207は、レンダラ209に結合されており、このレンダラは、オーディオデータおよび修正されたプロパティを供給され、修正されたプロパティに基づいてオーディオデータのオーディオをレンダリングするように構成されている。具体的には、受信されたオーディオデータによって定義された元のプロパティではなく、変更されたプロパティで仮想オーディオコンポーネントをレンダリングする。
レンダラ209は通常、空間レンダリングを提供するように構成され、例えば、いくつかの実施形態では、サラウンドサウンドラウドスピーカセットアップなどの空間スピーカセットアップを使用して、または例えば、ハイブリッドオーディオサウンドシステム(ラウドスピーカとヘッドフォンの組合せ)を使用して、オーディオシーンのオーディオコンポーネントをレンダリングすることができる。
しかし、多くの実施形態では、レンダラ209は、ヘッドフォン上で空間レンダリングを生成するように構成される。レンダラ209は特に、HRTFまたはBRIRに基づくバイノーラルフィルタリングを適用して、当業者に知られているように、ヘッドフォン上で空間オーディオレンダリングを提供するように構成されることができる。
ヘッドフォンの使用は、多くの実施形態において、特に複数の参加者が同じ部屋/ローカル環境にいる状況において、より没入型で個人化された体験を有する特に有利なVR体験を提供することができる。ヘッドフォンはまた、典型的には、外部音の減衰を提供し、それによって、受信されたオーディオデータによって定義されたオーディオシーンと一致し、ローカル環境からの干渉が低減されたサウンドステージの提供を容易にすることができる。しかしながら、典型的には、このような減衰は完全ではなく、ヘッドフォンを通した音の著しい漏れがある場合がある。実際、いくつかの実施形態では、ユーザがローカル環境のある程度のオーディオ知覚を有することが望ましい場合さえある。しかしながら、仮想オーディオシーンにも存在するローカルの実世界オーディオソースの場合、これは、上述したように、仮想ソースと実世界ソースとの間のオーディオ干渉を引き起こし、例えば仮想シーンの視覚的レンダリングとの整合性が低いオーディオ体験をもたらす可能性がある。図2の装置は、現実世界のオーディオソースの存在の知覚的影響を低減することができる前処理を実行することができる。
このアプローチは、ヘッドフォンを装着しているユーザを取り巻く実際の音の場合に特に興味深く、その一方で、周囲の音のエネルギーがヘッドフォンを介して再生されるバイノーラルコンテンツをレンダリングするために再使用され得るとき、および/または周囲の音が完全に抑制される必要がないとき、それらの音(またはそれらが表すオブジェクト)もVR/AR環境の一部である。一方、ヘッドフォンは、音の強さや指向性(ヘッドホン漏れ)を抑えているのに対し、これらの周囲の音を完全に抑えて置き換えることは可能ではない(リアルタイムで非定常音に完全に位相を揃えることはほとんど不可能である)。装置は、現実世界の音を補償し、それによってユーザに対する体験を改善することができる。例えば、システムは、音響ヘッドフォンの漏れ又は/及び減衰、周波数、並びに入射方向を補償するために使用されてもよい。
多くの実施形態では、プロパティは、オーディオコンポーネントのレベルであってもよい。したがって、ターゲットプロパティは、合成されたオーディオコンポーネントの絶対レベルまたは相対レベルとすることができ、実世界オーディオコンポーネントの推定されるプロパティは、絶対レベルまたは相対レベルとすることができ、レンダリングプロパティは、絶対レベルまたは相対レベルとすることができる。
例えば、受信されたオーディオデータは、オーディオシーン内の他のオーディオコンポーネントに対するレベルを有する仮想オーディオコンポーネントを表すことができる。したがって、受信されたオーディオデータは、オーディオシーン全体に対する仮想オーディオコンポーネントのレベルを記述することができ、調整器207は、このレベルに対応するようにターゲットプロパティを直接設定することができる。さらに、ヘッドセット内のマイクロフォン位置は、同じオーディオソースからの実世界オーディオコンポーネントのオーディオレベルを測定することができる。いくつかの実施形態では、同じオーディオソースからの実世界オーディオコンポーネントのレベルが、例えば、マイクロフォン信号を仮想オーディオコンポーネントのオーディオ信号と相関させることによって決定されてもよく、相関の大きさは、これに基づいて(例えば、適切な単調関数を使用して)設定されてもよい。
次に、調整器207は、レンダリングプロパティを、受信されたオーディオデータによって定義されたレベルに対応するが、実世界オーディオコンポーネントのレベルに対応するレベルだけ低減されたレンダリングレベルとして決定することに進むことができる。複雑さの低い例として、調整器207は例えば、マイクロフォン信号と仮想オーディオコンポーネント信号との間の相関の単調減少関数としてゲインを設定することによって、仮想オーディオコンポーネントに対する(オーディオシーン内の他のオーディオコンポーネントに対する絶対的または相対的)ゲインを適応させることによって、これを行うように構成されてもよい。この最後の例は例えば、アプローチがVRコンテンツを可能な限り適合させようとする古典的なVRシナリオの場合に適している。
いくつかの実世界要素を増強する必要があるARシナリオの場合、単調増加関数を考慮することができる。この関数は、(芸術的意図に応じて)増加する前に相関の或る閾値の前でゼロに設定することもできる。推定器203は、異なる実施形態において、実世界オーディオコンポーネントのレベルを決定するために異なるアプローチを使用してもよい。多くの実施形態では、レベルは、ヘッドフォン内に位置する1つまたは複数のマイクロフォン信号に対するマイクロフォン信号に基づいて決定されてもよい。前述のように、これと仮想オーディオコンポーネントとの相関は、実世界オーディオコンポーネントの推定されるレベルプロパティとして使用されてもよい。
さらに、推定器203は、ヘッドフォンの全体的なレベル減衰特性を使用して、耳に近い領域で知覚されるレベルをより正確に推定することができる。このような推定値は、実世界のオーディオコンポーネントのレベルとして調整器207に直接送信されてもよい。
マイクロフォンがヘッドフォンに配置され、ヘッドフォンの外側を録音する場合、推定器203は、ヘッドフォンの全体的なレベル減衰特性を使用して、耳に近い領域での知覚レベルをより正確に推定することができる。このような推定値は、実世界のオーディオコンポーネントのレベルとして調整器207に直接送信されてもよい。いくつかの実施形態では、ターゲットプロパティは、位置プロパティであってもよく、特に、合成オーディオコンポーネントの知覚される位置であってもよい。多くの実施形態では、ターゲットプロパティは、オーディオソースに対応する合成オーディオの意図される知覚位置として決定されてもよい。オーディオデータは、オーディオシーンにおける仮想オーディオコンポーネントの位置を含むことができ、ターゲット位置は、この指示位置であるとして決定されることができる。
実世界オーディオコンポーネントの推定されるプロパティは、それに対応して、特に実世界オーディオコンポーネントのオーディオソースの位置などの位置プロパティであってもよい。位置は、相対的または絶対的な位置であってもよい。例えば、現実世界のオーディオコンポーネント/ソースの位置は、部屋の所定の座標系におけるx,y,z座標(または3D角度座標)として決定されてもよく、または、例えば、ユーザのヘッドセットに対して決定されてもよい。
推定器203は、いくつかの実施形態では、専用の測定信号に応じて位置を決定するように構成されてもよい。例えば、各オーディオソースが同じ部屋に存在する複数の参加者のうちの或る参加者に対応する実施形態では、参加者のヘッドセットは、例えば、他のヘッドセットまで、および潜在的に部屋内の固定点までの距離を検出することができる赤外線測距機能を備えることができる。ヘッドセットおよび参加者の相対位置、したがって他の現実世界のオーディオソース(他の参加者)に対する相対位置は、個々の距離範囲から決定することができる。
いくつかの実施形態では、推定器203は、オーディオ環境の画像内のオーディオソースに対応するオブジェクトの検出に応じて第1のプロパティを決定するように構成される。例えば、1つまたは複数のビデオカメラが環境をモニタし、顔または頭部の検出を使用して、画像内の個々の参加者の位置を決定することができる。これから、それぞれの参加者の相対位置、したがってそれぞれの現実世界のオーディオソースが決定されることができる。
いくつかの実施形態では、推定器203は、オーディオソースからの音のキャプチャからオーディオソースの位置を決定するように構成され得る。例えば、ヘッドセットは、ヘッドセットの側面に外部マイクロフォンを備えてもよい。次いで、音源への方向は音源からの信号に対する2つのマイクロフォン間の相対的遅延の検出から推定されてもよい(すなわち、到着時間の差が到着角度を示す)。2つのマイクロフォンは、平面における到来角(方位角)を決定することができる。仰角と正確な3D位置を決定するために、3つ目のマイクロフォンが必要になる場合がある。
いくつかの実施形態では、推定器203は、奥行きマップ、ヒートマップ、GPS座標または光フィールドを生成するセンサ(カメラ)のような異なる捕捉技術からオーディオソースの位置を決定するように構成されてもよい。
いくつかの実施形態では、推定器203は、異なるモダリティ、すなわち、異なるキャプチャ方法を組み合わせることによって、オーディオソースの位置を決定するように構成されてもよい。典型的には、ビデオキャプチャ技術とオーディオキャプチャ技術との組み合わせを使用して、画像およびオーディオシーンの両方におけるオーディオソースの位置を特定することができ、それによって、位置推定の精度を高めることができる。
調整器207は、レンダリングプロパティを修正された位置プロパティとして決定するように構成することができる。3D角度座標に関する修正は、ユーザ中心の表現であるため、より実用的であるが、x,y,z座標への転記はオプションである。調整器207は例えば、現実世界と仮想との位置の不一致を補償するために、仮想音源から現実世界音源への方向に対して反対方向に位置を変更してもよい。これは、状況に応じて、距離パラメータ、角度パラメータのうちの1つ、または組み合わせに反映されることができる。調整器207は、例えば、音響+レンダリングの組み合わせが、ユーザに対する所望の角度に対応するチャネル間レベル差(ILD)を有するように、左耳レベルおよび右耳レベルを修正することによって、位置を変更することができる。
いくつかの実施形態では、ターゲットプロパティは、合成されたオーディオコンポーネントの周波数分布であってもよい。同様に、レンダリングプロパティは、レンダリングされた仮想オーディオコンポーネントの周波数分布であってもよく、実世界信号の推定されたプロパティは、ユーザの耳における実世界オーディオコンポーネントの周波数分布であってもよい。
例えば、現実世界のオーディオコンポーネントは、非平坦な周波数応答を有する場合がある音響伝達関数を介してユーザの耳に到達する場合がある。音響伝達関数は例えば、一部の実施形態では、主に、ヘッドフォンの減衰および漏れの周波数応答によって決定されてもよい。外部音に対するヘッドフォンの音響減衰は、異なるヘッドフォンに対して、また、場合によっては異なるユーザに対して、またはヘッドフォンの異なる取り付け具合および位置に対してさえ、実質的に変化し得る。幾つかの場合には、ヘッドフォン伝達特性/関数は、関連する周波数に対して実質的に一定であり、従って、一定の減衰または漏れ尺度によってモデル化されると考えられることが多い。
しかしながら、実際には、ヘッドフォン伝達特性は、典型的には、可聴周波数範囲内でかなりの周波数依存性を有する。例えば、典型的には、低周波音成分が高周波成分よりも減衰が少なく、結果として知覚される音は異なる。
他の実施形態では、オーディオレンダリングがスピーカによるものであり、ユーザがヘッドフォンを着用しない場合など、音響伝達関数は、現実世界の音源からユーザの耳への全体的な音響応答を反映する場合がある。この音響伝達関数は、部屋の特性、ユーザの位置、現実世界の音源の位置などに依存し得る。
現実世界のオーディオソースからユーザの耳への音響伝達関数の周波数応答が平坦でない場合、結果として生じる現実世界のオーディオコンポーネントは、(例えば、周波数が平坦であると考えることができる周波数応答を有するヘッドフォンによってレンダリングされる)対応する仮想オーディオコンポーネントとは異なる周波数応答を有する。したがって、現実世界のオーディオコンポーネントは、合成されたオーディオコンポーネントのレベルの変化を引き起こすだけでなく、周波数分布の変化も引き起こす。したがって、合成されたオーディオコンポーネントの周波数スペクトルは、オーディオデータによって記述される仮想オーディオコンポーネントの周波数スペクトルとは異なる。
いくつかの実施形態では、仮想オーディオコンポーネントのレンダリングは、この周波数歪みを補償するように修正されることができる。具体的には、推定器203は、ユーザによって受け取られる現実世界のオーディオコンポーネントの周波数スペクトル(周波数分布)を決定することができる。
推定器203は、例えば、仮想オーディオコンポーネントが意図的にレンダリングされない時間間隔中の実世界オーディオコンポーネントの測定によってこれを決定することができる。別の例として、例えば、ユーザが着用するヘッドフォンの周波数応答は、ローカル環境でテスト信号を生成し(例えば、一定振幅周波数掃引)、ヘッドフォン内のマイクロフォンを使用して結果を測定することに基づいて推定されることができる。さらに他の実施形態では、ヘッドセットの漏れ周波数応答は、例えば、以前の試験から知られてもよい。
次に、ユーザの耳における現実世界のオーディオコンポーネントの周波数分布は、音響伝達関数によってフィルタリングされた現実世界のオーディオコンポーネントの周波数分布に対応するように推定器203によって推定され、これは現実世界のオーディオコンポーネントの推定されたプロパティとして使用され得る。多くの実施形態において、周波数分布の指標は、実際に、相対的は指標であってよく、したがって、多くの実施形態において、音響伝達関数の周波数応答が装置によって直接使用されてもよい(例えば、実世界のオーディオコンポーネントの推定されたプロパティとして)。
調整器207は、仮想オーディオコンポーネントの修正された周波数分布としてレンダリングプロパティを決定することに進むことができる。ターゲット周波数分布は、受信されたオーディオデータによって表されるような仮想オーディオコンポーネントの周波数分布であってもよく、すなわち、ユーザによって知覚される合成されたオーディオコンポーネントのターゲット周波数スペクトルは、受け取られる仮想オーディオコンポーネントの周波数スペクトルである。したがって、調整器207は、レンダリングされた仮想オーディオコンポーネントの周波数スペクトルを、それが現実世界のオーディオコンポーネント周波数スペクトルを補完し、これらが合わさって所望の周波数スペクトルになるように、修正することができる。
調整器207は、具体的には、決定された音響伝達関数に対して相補的であるように決定されたフィルタによって仮想オーディオコンポーネントをフィルタリングするように進むことができる。具体的には、フィルタは、実質的に、音響伝達関数の逆数であってもよい。
このようなアプローチは、多くの実施形態において、改善された周波数分布と、知覚される低減された歪みとを提供することができ、特に、修正されていない仮想オーディオコンポーネントがレンダリングされた場合よりも、低減された周波数歪みを有する合成されたオーディオがユーザによって知覚される結果となる。
いくつかの実施形態では、調整器は、オーディオ差を検出するための心理音響閾値に応じてレンダリングプロパティを決定するように構成されてもよい。人間の心理音響能力(最小可聴角(おそらく周波数および方位角に依存する)、最小可聴運動角など)を内部パラメータとして使用して、入ってくる外部音漏れをシステムがどのくらい補償すべきかを決定することができる。
例えば、レンダリングプロパティが位置プロパティである場合、調整器は、別個のソースを1つとして知覚する人間の能力を具体的に使用することができる。この能力は、現実世界のオーディオソースの位置と仮想(レンダリングされた)オーディオソースの位置との間の角度最大値を定義するために使用されることができる。
この人間の能力は人間の視覚によっても影響を受けるので、すなわち、ユーザが、所与の位置において1つ(または多数)の一致する視覚的対応物を見ることができる(または見ることができない)場合、対応する異なる角度最大値を、一致するオブジェクトが仮想環境または現実環境においてユーザによって見ることができるかどうかに関する情報に基づいて選択することができる。
いくつかの実施形態では、調整器207は、ユーザが現実世界のオーディオソース(ARケース)の視覚的対応物、または仮想オーディオソース(VRケース)の視覚的対応物、またはその両方(混合現実)を見ることができるかどうかに関する情報に応じて、レンダリングプロパティを決定するように構成され得る。
上記の角度最大値は、人間の能力に影響を与えるので、オーディオソースの周波数または方位角に基づいて選択されることもできる。
別の例は、視覚オブジェクトをオーディオ要素にマッチングさせるための人間の能力の使用である。これは、視覚オブジェクトが受信データ内のオーディオソースと同じ位置にあることを条件として、ターゲットプロパティの最大角度修正振幅としてレンダリングプロパティに使用されることができる。
これらの人間の心理音響的制限外のシナリオの場合、調整器は、全体的な経験を妨害しないように構成されてもよい。
例えば、調整器207は、これらの制限外の変更を行わなくてもよい。
いくつかの実施形態では、レンダラ209は、装置が人間の心理音響能力内の実世界と仮想音源との間の不一致を補償することができる状況と、装置がこれらの制限内で補償することができず、レンダリングに影響を与えないことを好む状況との間の円滑な移行を保証する空間レンダリングを提供するように構成されてもよい。
例えば、レンダラ(209)は、レンダラ(209)に送信された所与のレンダリングプロパティに対して時間平滑化フィルタを使用することができる。
したがって、記載された装置は、同じ実世界オーディオソースに対する実世界オーディオコンポーネントのプロパティに基づいて、仮想オーディオコンポーネントのレンダリングを適応させようとする。多くの実施形態では、このアプローチは、複数のオーディオコンポーネント/オーディオソースに適用されてもよく、特に、仮想シナリオおよび実世界シナリオの両方に存在するすべてのオーディオコンポーネント/オーディオソースに適用されてもよい。
いくつかの実施形態では、オーディオデータのどのオーディオコンポーネントが実世界起源であり、どのオーディオコンポーネントに対してローカルオーディオソースが存在するかが知られている場合がある例えば、仮想オーディオシーンは(例えば、局所的なVR/AR体験において)ローカルの実世界オーディオソースのみを含むように生成されることが知られ得る。
しかしながら、他の場合には、これはオーディオコンポーネントのサブセットの場合にのみ当てはまり得る。いくつかの実施形態では、受信機は、ユーザの環境内に現実世界のソースを有するオーディオコンポーネントを、現在のユーザにとって純粋に仮想であるソースとは異なる1つまたは複数のソースから、それらが特定の(インターフェースの一部)を通して提供され得るので、受信することができる。
他の場合には、どのオーディオコンポーネントが実世界の対応物を有するかは先験的に知られていないことがある。
ある実施形態では、受信機201は、オーディオシーンデータのメタデータに応じて、どのオーディオコンポーネントが現実世界の対応物を有するかを決定するように構成されてもよい。例えば、受信されたデータは、例えば、個々のオーディオコンポーネントが現実世界に対応物を有するか否かを示す専用のメタデータを有することができる。例えば、受信された音声データ内の各オーディオコンポーネントに対して、それがローカルな実世界のオーディオソースを反映するか否かを示す単一のフラグを含むことができる。その場合、装置は、上述のようにレンダリングの前にオーディオコンポーネントを補償することに進むことができる。
このようなアプローチは、多くのアプリケーションにおいて非常に有利であり得る。特に、これは、遠隔サーバがオーディオ装置の動作、すなわちローカルでのレンダリングの動作を制御またはガイドすることを可能にすることができる多くの実用的アプリケーションでは、VRサービスは遠隔サーバによって提供され、このサーバは、実世界のオーディオソースがどこに位置するかの情報を持つだけでなく、オーディオシーンにどのオーディオソースが含まれるかを決定することもできる。したがって、システムは、動作の効率的な遠隔制御を可能にすることができる。
多くの実施形態では、図2の装置の受信機201は、所与のオーディオコンポーネントがローカルの実世界オーディオソースに対応するかどうかを決定するように構成され得る。
前述のように、これは、特に、仮想オーディオコンポーネントのオーディオ信号を、ローカル環境をキャプチャするマイクロフォン信号と相関させることによって実行されることができる。相関という用語は、オーディオ分類(例えば、オーディオイベント認識、話者認識)、(マルチチャネル記録における)位置比較、または信号処理相互相関を含む、任意の可能な類似性測定を含むことができる。最大相関が所与の閾値を超える場合、オーディオコンポーネントにローカルな実世界オーディオコンポーネントのカウンタポイントがあり、ローカルオーディオソースに対応していると考えられる。したがって、前述のようにレンダリングを実行することに進むことができる。
相関が閾値未満である場合、オーディオコンポーネントはローカルオーディオソースに対応しない(またはこのレベルが、それがいかなる重大な干渉または歪みも引き起こさないほど低い)と考えられ、したがって、オーディオコンポーネントはいかなる補償もなしに直接レンダリングされ得る。
明確にするための上記の説明は、異なる機能回路、ユニットおよびプロセッサを参照して本発明の実施形態を説明したことが理解されるであろう。しかしながら、本発明から逸脱することなく、異なる機能回路、ユニットまたはプロセッサ間での機能の任意の適切な分散を使用できることは明らかであろう。例えば、別個のプロセッサまたはコントローラによって実行されることが示されている機能が同じプロセッサまたはコントローラによって実行されてもよい。したがって、特定の機能ユニットまたは回路への言及は、厳密な論理的または物理的構造または編成を示すのではなく、説明された機能を提供するための適切な手段への言及としてのみ見なされるべきである。
本発明は、ハードウェア、ソフトウェア、ファームウェアまたはこれらの任意の組合せを含む任意の適切な形態で実施することができる。本発明は、任意選択で、1つまたは複数のデータプロセッサおよび/またはデジタル信号プロセッサ上で実行されるコンピュータソフトウェアとして少なくとも部分的に実装され得る。本発明の実施形態の要素およびコンポーネントは、任意の適切な方法で物理的、機能的および論理的に実装され得る。実際、機能は、単一のユニットで、複数のユニットで、または他の機能ユニットの一部として実装されてもよい。したがって、本発明は、単一のユニットで実施されてもよく、または異なるユニット、回路およびプロセッサの間で物理的および機能的に分散されてもよい。
本発明はいくつかの実施形態に関連して説明されてきたが、本明細書に記載された特定の形態に限定されることは意図されていない。むしろ、本発明の範囲は、添付の特許請求の範囲によってのみ限定される。さらに、或る特徴が特定の実施形態に関連して説明されるように見えるかもしれないが、当業者は説明された実施形態の様々な特徴が本発明に従って組み合わされ得ることを認識するであろう。請求項において、「有する(comprising)」という用語は、他の要素又はステップの存在を排除するものではない。
さらに、個別に列挙されているが、複数の手段、素子、回路または方法ステップが、例えば単一の回路、ユニットまたはプロセッサによって実装され得る。さらに、個々の特徴が異なる請求項に含まれている場合があるが、これらは場合によっては有利に組み合わされてもよく、異なる請求項に含まれることは特徴の組み合わせが実現可能ではない及び/又は有利ではないことを意味しない。また、或る特徴を請求項の1つのカテゴリに含めることは、このカテゴリへの限定を意味するものではなく、むしろ、その特徴が必要に応じて他の請求項カテゴリに等しく適用可能であることを示す。さらに、請求項における特徴の順序は、当該特徴が動作しなければならない特定の順序を意味するものではなく、特に、方法の請求項における個々のステップの順序は、当該ステップがこの順序で実行されなければならないことを意味するものではない。むしろ、ステップは任意の適切な順序で実行されることができる。さらに、単数への言及は複数を除外しない。従って、「a」、「an」、「第1」、「第2」等の参照も、複数を排除するものではない。請求項中の参照符号は、単に明確な例として提供されているにすぎず、請求項の範囲を何らかの態様で限定するものと解釈してはならない。

Claims (15)

  1. オーディオシーンのためのオーディオデータを受信するための受信機であって、前記オーディオデータは、ユーザのオーディオ環境における実世界のオーディオソースを表す第1のオーディオコンポーネントのためのオーディオデータを有する、受信機と、
    音伝播を介して前記実世界のオーディオソースから前記ユーザに到達する実世界のオーディオコンポーネントの第1のプロパティを決定するための決定器と、
    前記第1のオーディオコンポーネントのための前記オーディオデータに応じて前記ユーザによって受け取られる合成オーディオコンポーネントのターゲットプロパティを決定するためのターゲットプロセッサであって、前記合成オーディオコンポーネントは、音伝播を介して前記ユーザによって受け取られる前記実世界のオーディオコンポーネントと、前記ユーザによって受け取られる前記第1のオーディオコンポーネントのレンダリングされたオーディオとの組み合わせである、ターゲットプロセッサと、
    前記ターゲットプロパティ及び前記第1のプロパティに応じて前記第1のオーディオコンポーネントのための前記オーディオデータによって示される前記第1のオーディオコンポーネントのプロパティを修正することによって前記第1のオーディオコンポーネントのレンダリングプロパティを決定するための調整器と、
    前記レンダリングプロパティに応じて前記第1のオーディオコンポーネントをレンダリングするレンダラと、を有するオーディオ装置。
  2. 前記ターゲットプロパティが、前記合成オーディオコンポーネントのターゲット知覚位置である、請求項1に記載のオーディオ装置。
  3. 前記ターゲットプロパティが、前記合成オーディオコンポーネントのレベルである、請求項1に記載のオーディオ装置。
  4. 前記調整器が、ユーザによって受け取られる前記実世界のオーディオコンポーネントのレベルの関数として決定された量だけ低減された前記オーディオデータによって示される前記第1のオーディオコンポーネントのレベルに対応するレンダリングレベルとして前記レンダリングプロパティを決定するように構成される、請求項3に記載のオーディオ装置。
  5. 前記ターゲットプロパティが、前記合成オーディオコンポーネントの周波数分布である、請求項1に記載のオーディオ装置。
  6. 前記レンダラが、前記第1のオーディオコンポーネントにフィルタを適用するように構成され、前記フィルタが、前記実世界のオーディオソースから前記ユーザまでの音響経路の周波数応答に補完的な周波数応答を有する、請求項5に記載のオーディオ装置。
  7. 前記決定器が、前記第1のオーディオコンポーネントをレンダリングするために使用されるヘッドフォンの外部の音に対する音響伝達特性に応じて前記第1のプロパティを決定するように構成される、請求項1から請求項6のいずれか一項に記載のオーディオ装置。
  8. 前記音響伝達特性が、周波数応答及びヘッドフォン漏れ特性のうちの少なくとも1つを有する、請求項7に記載のオーディオ装置。
  9. 前記決定器が、前記ユーザの前記オーディオ環境をキャプチャするマイクロフォン信号に応じて前記第1のプロパティを決定するように構成される、請求項1から請求項8のいずれか一項に記載のオーディオ装置。
  10. 前記調整器が、オーディオ差の検出のための心理音響閾値に応じて前記レンダリングプロパティを決定するように構成される、請求項1から請求項9のいずれか一項に記載のオーディオ装置。
  11. 前記決定器が、前記オーディオ環境の画像中の前記オーディオソースに対応するオブジェクトの検出に応じて前記第1のプロパティを決定するように構成される、請求項1から請求項10のいずれか一項に記載のオーディオ装置。
  12. 前記受信機が、前記第1のオーディオコンポーネントと前記ユーザの前記オーディオ環境をキャプチャするマイクロフォン信号との間の相関に応じて前記実世界のオーディオソースに対応するものとして前記第1のオーディオコンポーネントを特定するように構成される、請求項1から請求項11のいずれか一項に記載のオーディオ装置。
  13. 前記受信機が、前記オーディオデータのメタデータに応じて前記実世界のオーディオソースに対応するものとして前記第1のオーディオコンポーネントを特定するように構成される、請求項1から請求項12のいずれか一項に記載のオーディオ装置。
  14. 前記オーディオデータが、前記オーディオ環境に対応する拡張現実オーディオシーンを表す、請求項1から請求項13のいずれか一項に記載のオーディオ装置。
  15. オーディオデータを処理する方法であって、
    オーディオシーンのためのオーディオデータを受信するステップであって、前記オーディオデータは、ユーザのオーディオ環境における実世界のオーディオソースを表す第1のオーディオコンポーネントのためのオーディオデータを有する、ステップと、
    音伝播を介して前記実世界のオーディオソースから前記ユーザに到達する実世界のオーディオコンポーネントの第1のプロパティを決定するステップと、
    前記第1のオーディオコンポーネントのための前記オーディオデータに応じて前記ユーザによって受け取られる合成オーディオコンポーネントのターゲットプロパティを決定するステップであって、前記合成オーディオコンポーネントは、音伝播を介して前記ユーザによって受け取られる前記実世界のオーディオコンポーネントと、前記ユーザによって受け取られる前記第1のオーディオコンポーネントのレンダリングされたオーディオとの組み合わせである、ステップと、
    前記ターゲットプロパティ及び前記第1のプロパティに応じて前記第1のオーディオコンポーネントのための前記オーディオデータによって示される前記第1のオーディオコンポーネントのプロパティを修正することによって前記第1のオーディオコンポーネントのレンダリングプロパティを決定するステップと、
    前記レンダリングプロパティに応じて前記第1のオーディオコンポーネントをレンダリングするステップと、を有する方法。
JP2020569731A 2018-07-09 2019-07-09 オーディオ装置及びその動作方法 Active JP7170069B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP18182373.3 2018-07-09
EP18182373.3A EP3595336A1 (en) 2018-07-09 2018-07-09 Audio apparatus and method of operation therefor
PCT/EP2019/068312 WO2020011738A1 (en) 2018-07-09 2019-07-09 Audio apparatus and method of operation therefor

Publications (2)

Publication Number Publication Date
JP2021533593A JP2021533593A (ja) 2021-12-02
JP7170069B2 true JP7170069B2 (ja) 2022-11-11

Family

ID=63077667

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020569731A Active JP7170069B2 (ja) 2018-07-09 2019-07-09 オーディオ装置及びその動作方法

Country Status (7)

Country Link
US (2) US11523219B2 (ja)
EP (2) EP3595336A1 (ja)
JP (1) JP7170069B2 (ja)
CN (1) CN112369048B (ja)
BR (1) BR112021000154A2 (ja)
MX (1) MX2021000219A (ja)
WO (1) WO2020011738A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SG10201800147XA (en) 2018-01-05 2019-08-27 Creative Tech Ltd A system and a processing method for customizing audio experience
US10390171B2 (en) 2018-01-07 2019-08-20 Creative Technology Ltd Method for generating customized spatial audio with head tracking
US11221820B2 (en) 2019-03-20 2022-01-11 Creative Technology Ltd System and method for processing audio between multiple audio spaces
US10911885B1 (en) * 2020-02-03 2021-02-02 Microsoft Technology Licensing, Llc Augmented reality virtual audio source enhancement
CN112270769B (zh) * 2020-11-11 2023-11-10 北京百度网讯科技有限公司 一种导游方法、装置、电子设备及存储介质
EP4075830A1 (en) * 2021-04-15 2022-10-19 Sonova AG System and method for estimating an acoustic attenuation of a hearing protection device
CN113672084A (zh) * 2021-08-03 2021-11-19 歌尔光学科技有限公司 Ar显示画面调节方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120206452A1 (en) 2010-10-15 2012-08-16 Geisner Kevin A Realistic occlusion for a head mounted augmented reality display
US20170098453A1 (en) 2015-06-24 2017-04-06 Microsoft Technology Licensing, Llc Filtering sounds for conferencing applications

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1227392A2 (en) * 2001-01-29 2002-07-31 Hewlett-Packard Company Audio user interface
US8170222B2 (en) * 2008-04-18 2012-05-01 Sony Mobile Communications Ab Augmented reality enhanced audio
EP2337020A1 (en) * 2009-12-18 2011-06-22 Nxp B.V. A device for and a method of processing an acoustic signal
US10326978B2 (en) * 2010-06-30 2019-06-18 Warner Bros. Entertainment Inc. Method and apparatus for generating virtual or augmented reality presentations with 3D audio positioning
US8831255B2 (en) * 2012-03-08 2014-09-09 Disney Enterprises, Inc. Augmented reality (AR) audio with position and action triggered virtual sound effects
US9671566B2 (en) * 2012-06-11 2017-06-06 Magic Leap, Inc. Planar waveguide apparatus with diffraction element(s) and system employing same
WO2014091375A1 (en) * 2012-12-14 2014-06-19 Koninklijke Philips N.V. Reverberation processing in an audio signal
CN106797525B (zh) * 2014-08-13 2019-05-28 三星电子株式会社 用于生成和回放音频信号的方法和设备
CN107925840B (zh) * 2015-09-04 2020-06-16 皇家飞利浦有限公司 用于处理音频信号的方法和装置
JP6677540B2 (ja) 2016-03-15 2020-04-08 セーレン株式会社 車両用複合表皮材
JP6878458B2 (ja) * 2016-04-12 2021-05-26 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 焦点距離に近い音源を強調する空間オーディオ処理
US9973874B2 (en) * 2016-06-17 2018-05-15 Dts, Inc. Audio rendering using 6-DOF tracking
US9906885B2 (en) * 2016-07-15 2018-02-27 Qualcomm Incorporated Methods and systems for inserting virtual sounds into an environment
EP3594802A1 (en) * 2018-07-09 2020-01-15 Koninklijke Philips N.V. Audio apparatus, audio distribution system and method of operation therefor
WO2020210249A1 (en) * 2019-04-08 2020-10-15 Harman International Industries, Incorporated Personalized three-dimensional audio

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120206452A1 (en) 2010-10-15 2012-08-16 Geisner Kevin A Realistic occlusion for a head mounted augmented reality display
US20170098453A1 (en) 2015-06-24 2017-04-06 Microsoft Technology Licensing, Llc Filtering sounds for conferencing applications

Also Published As

Publication number Publication date
US20210289297A1 (en) 2021-09-16
CN112369048A (zh) 2021-02-12
EP3595336A1 (en) 2020-01-15
WO2020011738A1 (en) 2020-01-16
JP2021533593A (ja) 2021-12-02
BR112021000154A2 (pt) 2021-04-06
CN112369048B (zh) 2023-06-09
EP3821618A1 (en) 2021-05-19
US11523219B2 (en) 2022-12-06
MX2021000219A (es) 2021-03-31
US20230058952A1 (en) 2023-02-23
EP3821618B1 (en) 2022-09-07

Similar Documents

Publication Publication Date Title
JP7170069B2 (ja) オーディオ装置及びその動作方法
US11877135B2 (en) Audio apparatus and method of audio processing for rendering audio elements of an audio scene
US11656839B2 (en) Audio apparatus, audio distribution system and method of operation therefor
US20240098446A1 (en) Head tracked spatial audio and/or video rendering
US20230377276A1 (en) Audiovisual rendering apparatus and method of operation therefor
RU2797362C2 (ru) Аудиоустройство и способ его работы
US20230283976A1 (en) Device and rendering environment tracking
US20230254660A1 (en) Head tracking and hrtf prediction
RU2815621C1 (ru) Аудиоустройство и способ обработки аудио
JP7479352B2 (ja) オーディオ装置及びオーディオ処理の方法
RU2815366C2 (ru) Аудиоустройство и способ обработки аудио
WO2023150486A1 (en) Gesture controlled audio and/or visual rendering

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220609

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20220831

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221018

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221031

R150 Certificate of patent or registration of utility model

Ref document number: 7170069

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150