JP2023504990A - 深度による空間オーディオキャプチャ - Google Patents
深度による空間オーディオキャプチャ Download PDFInfo
- Publication number
- JP2023504990A JP2023504990A JP2022521620A JP2022521620A JP2023504990A JP 2023504990 A JP2023504990 A JP 2023504990A JP 2022521620 A JP2022521620 A JP 2022521620A JP 2022521620 A JP2022521620 A JP 2022521620A JP 2023504990 A JP2023504990 A JP 2023504990A
- Authority
- JP
- Japan
- Prior art keywords
- audio
- depth
- information
- objects
- environment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 105
- 238000000034 method Methods 0.000 claims abstract description 96
- 230000033001 locomotion Effects 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 239000000523 sample Substances 0.000 claims 3
- 238000003491 array Methods 0.000 claims 1
- 230000001143 conditioned effect Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 description 30
- 230000000875 corresponding effect Effects 0.000 description 19
- 238000009877 rendering Methods 0.000 description 16
- 239000000203 mixture Substances 0.000 description 15
- 238000004891 communication Methods 0.000 description 13
- 238000012732 spatial analysis Methods 0.000 description 12
- 238000004091 panning Methods 0.000 description 8
- 230000000007 visual effect Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- 241000282320 Panthera leo Species 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 230000002596 correlated effect Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000011002 quantification Methods 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 230000001052 transient effect Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 239000007789 gas Substances 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 241000272525 Anas platyrhynchos Species 0.000 description 2
- 241000282412 Homo Species 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000011143 downstream manufacturing Methods 0.000 description 2
- 238000005562 fading Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 208000001491 myopia Diseases 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 241000473391 Archosargus rhomboidalis Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 239000000809 air pollutant Substances 0.000 description 1
- 231100001243 air pollutant Toxicity 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000036772 blood pressure Effects 0.000 description 1
- 230000036760 body temperature Effects 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 235000009508 confectionery Nutrition 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 230000003447 ipsilateral effect Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000001473 noxious effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 230000008261 resistance mechanism Effects 0.000 description 1
- 230000002207 retinal effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/20—Image signal generators
- H04N13/204—Image signal generators using stereoscopic image cameras
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/20—Image signal generators
- H04N13/271—Image signal generators wherein the generated image signals comprise depth maps or disparity maps
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/301—Automatic calibration of stereophonic sound system, e.g. with test microphone
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2201/00—Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
- H04R2201/40—Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
- H04R2430/21—Direction finding using differential microphone array [DMA]
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Stereophonic System (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
マルチチャネルミックスが複数の着信信号からの寄与としてサウンドを取り込む場合、アンビソニックスは、単一ポイントから音場の全てのサウンドの方向を表す固定された信号のセットを取り込む又は符号化するステップを提供する。換言すると、同じアンビソニック信号を用いて、ラウドスピーカの何れの数でも音場を再レンダリングすることができる。マルチチャネルの場合、1つをチャネルの組み合わせから発生したソースの再生に制限することができる。例えば、高さチャネルが無い場合、次に高さ情報は送信されない。他方、アンビソニックスでは、全方向画像に関する情報を取り込み且つ送信することができ、制限は一般的に再生のポイントにだけ課せられる。
W = S * 1/√2 、ここでW=単方向成分、
X = S * cos(θ) * cos(Φ)、ここでX=前に示される8の字、
Y = S * sin(θ) * cos(Φ)、ここでY=右に示される8の字、
Z = S * sin(Φ)、ここでZ=上に示される8の字、
及びSはパンニングされる信号である。
漏れに対抗し且つ非均一レイアウトの性能を改良することが望ましい。Harpex又はDirACなどのアクティブ復号解決策は復号のための仮想マイクロフォンを形成しない。確かに、これらは音場の方向を調査し、信号を再作成し、更に詳細には信号を各時間-周波数に対して識別された方向にレンダリングする。これは復号の指向性を大いに改良すると同時に、各時間-周波数タイルが厳しい決定を用いるので方向性を制限する。DirACの場合、これは1つの時間-周波数当たり単一の方向仮定を行う。Harpexの場合、2つの方向波形を検出することができる。何れのシステムにおいても、復号器は方向性決定がどのようにソフト又はハードにあるべきかの制御を提供することができる。このような制御は本明細書では「フォーカス」のパラメータと呼ばれ、ソフトフォーカス、インナーパンニング、又は方向性の判定をやわらげる他の方法を可能にするための有用なメタデータパラメータとすることができる。
1つの例では、オーディオオブジェクトに関する深度又は距離情報は、オーディオソースに関する他の情報と共に符号化することができる。1つの例では、送信フォーマット又はパンニング式を修正又は拡張してコンテンツ作成中の深度インジケータの追加を支援することができる。ミックスにラウドネス及び残響変化などの深度キューを適用する方法とは異なり、本明細書で論じる方法は、ミックスにおけるソースに関する距離又は深度情報を測定又は回復するステップを含むことができるか又はこれを可能にすることができ、これによって製作側ではなく最終的な再生能力に対してレンダリングすることができる。異なるトレードオフを備えた様々な方法が、全体が引用によって本明細書に組み入れられる「6-DOFトラッキングを用いたオーディオレンダリング」という名称の米国特許第9,973,874号で論じられており、深度ベースのサブミキシング及び「D」チャネル符号化を含む。
本明細書で論じる距離レンダリング技術を用いてバイノーラルレンダリングにおける深度又は近接性の知覚を達成することができる。距離パンニングを用いて、2又は3以上の基準距離に渡ってサウンドソースを分散させることができる。例えば、遠及び近視野HRTFの加重バランスをレンダリングして目標深度を達成することができる。様々な深度のサブミックスを作成するためのこのような距離パナーの使用はまた、深度情報の符号化又は送信にも有用とすることができる。一般的には、サブミックスは各々、シーン符号化の同じ方向性を有する情報を含むか又は表すことができ、更に複数のサブミックスの組み合わせはこれらの相対的エネルギー分布を介して深度情報を明らかにする。このようなエネルギー分布は、例えば「近」及び「遠」などの関連性に対して均一に分配又は分類される深度の直接定量化を含むことができる。1つの例では、このようなエネルギー分布は基準距離に対する相対的ステアリング又は近さ又は遠さ、例えば遠視野ミックスの残りよりも近いものと理解されるある信号を含むことができる。
図2Aは、環境に関するオーディオ情報及び視覚情報を受信するように構成されたシステムの例を一般的に示す。図2Bは、同じ環境に対するオブジェクト識別及び深度分析の例を一般的に示す。
502 環境におけるオーディオキャプチャソースからオーディオシーン情報を受信する
504 受信したオーディオシーンにおいて少なくとも1つのオーディオ成分を識別する
506 深度センサから、環境における1又は2以上のオブジェクトに関する深度特性情報を受信する
508 識別された少なくとも1つのオーディオ成分及び深度特性情報に基づいて空間オーディオ信号を符号化する
Claims (27)
- 環境におけるオーディオキャプチャソースからオーディオシーン情報を受信するステップと、
前記受信したオーディオシーンにおいて少なくとも1つのオーディオ成分を識別するステップと、
深度センサから、前記環境における1又は2以上のオブジェクトに関する深度特性情報を受信するステップと、
前記識別された少なくとも1つのオーディオ成分及び前記深度特性情報に基づいて空間オーディオ信号を符号化するステップと、
を含む方法。 - 前記少なくとも1つのオーディオ成分は、前記受信したオーディオシーン情報の時間-周波数表現に対する信号寄与に関する情報を用いて決定される、
ことを特徴とする請求項1に記載の方法。 - 前記オーディオキャプチャソースに対して、前記少なくとも1つのオーディオ成分の第1方向及び基準深度を決定するステップを更に含む、
ことを特徴とする請求項1に記載の方法。 - 前記深度センサからの前記深度特性情報の少なくとも一部が前記少なくとも1つのオーディオ成分に対応するという信頼度を決定するステップと、
前記決定された信頼度を用いて前記識別された少なくとも1つのオーディオ成分の第1深度特性を提供するステップと、
を更に含み、
前記空間オーディオ信号を符号化するステップは、前記第1深度特性を用いるステップを含む、
ことを特徴とする請求項3に記載の方法。 - 前記第1深度特性を提供するステップは、
前記信頼度が高い時に、前記深度センサからの情報に基づいて前記第1深度特性を提供するステップと、
前記信頼度が低い時に、前記基準深度として前記第1深度特性を提供するステップと、
前記信頼度が中間である時に、前記基準深度と前記深度センサを用いて決定された深度との間にある深度として前記第1深度特性を提供するステップと、
を含む、
ことを特徴とする請求項4に記載の方法。 - 前記信頼度を決定するステップは、コンピュータビジョンプロセッサを用いて、前記環境において識別されたオブジェクトを分類し、更に前記少なくとも1つのオーディオ成分が、前記分類されたオブジェクトの少なくとも1つからのオーディオを含むか又は含む可能性があるかどうかを決定するステップを含む、
ことを特徴とする請求項4に記載の方法。 - 前記深度特性情報は、それぞれの深度及び方向特性を備えた複数のオブジェクトに関する情報を含み、
前記信頼度を決定するステップは、前記識別された少なくとも1つのオーディオ成分が前記複数のオブジェクトの特定のオブジェクトに対応するという信頼度を決定するステップを含む、
ことを特徴とする請求項4に記載の方法。 - 前記信頼度を決定するステップは、
前記深度センサからの前記深度特性情報において1又は2以上のデータクラスタを識別するステップと、
前記少なくとも1つのオーディオ成分の第1方向を前記識別された1又は2以上のデータクラスタに相関付けるステップと、
を含む、
ことを特徴とする請求項4に記載の方法。 - 前記深度センサから、それぞれの深度の大きさ及び深度方向特性を備えた複数のオブジェクトに関する深度特性情報を受信するステップと、
前記複数のオブジェクトに対して、前記深度特性情報が前記少なくとも1つのオーディオ成分に対応するというそれぞれの信頼度指標を決定するステップと、
前記それぞれの信頼度指標に基づいて組み合わせ深度特性を決定するステップと、
を更に含み、
前記空間オーディオ信号を符号化するステップは、前記組み合わせ深度特性を用いるステップを含む、
ことを特徴とする請求項3に記載の方法。 - 前記空間オーディオ信号を符号化するステップは、前記オーディオシーン及び前記深度特性情報に基づいて深度拡張アンビソニック信号を符号化するステップを含む、
ことを特徴とする請求項1に記載の方法。 - オーディオキャプチャソースから前記オーディオシーン情報を受信するステップは、マルチトランスデューサマイクロフォン、音場マイクロフォン、マイクロフォンアレイ、及びアンビソニックマイクロフォンの1又は2以上から前記オーディオシーン情報を受信するステップを含む、
ことを特徴とする請求項1に記載の方法。 - 前記深度特性情報を受信するステップは、前記環境における第1オブジェクトの動きを示す第1オブジェクトに関する時間変化深度特性情報を受信するステップを含み、
前記空間オーディオ信号を符号化するステップは、前記オーディオシーン及び前記時間変化深度特性情報に基づくようにするステップを含む、
ことを特徴とする請求項1に記載の方法。 - 画像ベースのオブジェクト分類子を用いて前記環境における前記1又はそれ以上のオブジェクトの第1オブジェクトの分類を決定するステップを更に含み、
前記空間オーディオ信号を符号化するステップは、前記オーディオシーン情報の第1部分が、前記分類に基づく前記第1オブジェクトからのオーディオ情報を含むこと、又は含む可能性があることの決定が条件付けられる、
ことを特徴とする請求項1に記載の方法。 - 前記オーディオシーン情報の第1部分が、前記第1オブジェクトの分類に関連付けられるオーディオ周波数コンテンツ及び前記オーディオ情報のオーディオ周波数コンテンツに基づく前記第1オブジェクトからのオーディオ情報を含むかどうか、又は含む可能性があるかどうかを決定するステップを更に含む、
ことを特徴とする請求項13に記載の方法。 - 前記深度特性情報を受信するステップは、3次元ビデオキャプチャシステム、ステレオカメラ、又はレーザもしくは赤外線プローブ信号の飛行時間情報を測定するように構成されたアクティブ深度プローブの1又は2以上からの情報を分析するステップを含む、
ことを特徴とする請求項1に記載の方法。 - システムであって、
環境におけるオーディオシーンを取り込むように構成されたオーディオキャプチャソースと、
前記環境における1又は2以上のオブジェクトに関する深度特性情報を提供するように構成された深度センサと、
プロセッサ回路と、
を備え、
前記プロセッサ回路が、
前記オーディオシーンにおいて、第1方向と前記オーディオキャプチャソースに対する基準深度とを有する少なくとも1つのオーディオ成分を識別し、
前記オーディオシーンにおける前記識別された少なくとも1つのオーディオ成分及び提供された前記深度特性情報に基づいて空間オーディオ信号を符号化する、
ように構成されている、
ことを特徴とするシステム。 - 前記オーディオキャプチャソースは、マルチトランスデューサマイクロフォン、音場マイクロフォン、マイクロフォンアレイ、及びアンビソニックマイクロフォンの1又は2以上を含む、
ことを特徴とする請求項16に記載のシステム。 - 前記深度センサは、レーザ、変調光源、ステレオカメラ、深度プローブ、赤外線センサ、及びカメラアレイの1又は2以上を含む、
ことを特徴とする請求項16に記載のシステム。 - 前記プロセッサ回路は、前記第1オブジェクトの前記オーディオシーン及び前記深度特性に基づいて深度拡張アンビソニック信号として前記空間オーディオ信号を符号化するよう構成される、
ことを特徴とする請求項16に記載のシステム。 - 前記深度センサは、前記環境における複数のオブジェクトの深度情報を提供するよう構成され、
前記プロセッサ回路は、前記複数のオブジェクトの選択されたオブジェクトに関する深度情報を用いて前記空間オーディオ信号を符号化するよう構成される、
ことを特徴とする請求項16に記載のシステム。 - 前記深度センサは、前記環境における複数のオブジェクトの深度情報を提供するよう構成され、
前記プロセッサ回路は、前記複数のオブジェクトに関する深度情報の加重組み合わせを用いて前記空間オーディオ信号を符号化するよう構成される、
ことを特徴とする請求項16に記載のシステム。 - 前記プロセッサ回路は、前記オーディオシーンからの情報が前記環境における前記1又は2以上のオブジェクトの中から第1オブジェクトに対応するという信頼度を決定するよう構成され、
前記プロセッサ回路は、指定された信頼度閾値に一致するか又はこれを超える前記決定された信頼度に基づいて前記空間オーディオ信号を符号化するよう構成される、
ことを特徴とする請求項16に記載のシステム。 - 前記深度センサは、前記深度センサからの情報において識別された1又は2以上のデータクラスタからの情報を用いて前記1又は2以上のオブジェクトの深度特性を決定するよう構成される、
ことを特徴とする請求項16に記載のシステム。 - 前記1又は2以上のオブジェクトの分類を決定するように構成されたオブジェクト分類子回路を更に備え、
前記プロセッサ回路は、前記オブジェクトの分類と前記少なくとも1つのオーディオ成分との間の対応を決定するよう構成され、
前記プロセッサ回路は、閾値対応条件を満足させる前記決定された対応の値に基づいて前記空間オーディオ信号を符号化するよう構成される、
ことを特徴とする請求項16に記載のシステム。 - オーディオ信号符号器デバイスであって、
プロセッサ及び該プロセッサに動作可能に結合された非一時的コンピュータ可読媒体を備え、
前記非一時的コンピュータ可読媒体は、関連付けられて格納され、前記プロセッサにアクセス可能で且つ前記プロセッサによって実行可能である命令を含み、
前記命令は、
実行された時に、環境におけるオーディオキャプチャソースからオーディオシーンを受信する命令と、
実行された時に、前記オーディオシーンにおける複数の異なるオーディオ成分の中から前記オーディオシーンにおける第1オーディオ成分を識別する命令と、
実行された時に、前記環境における1又は2以上のオブジェクトに関する深度情報を含む前記環境に関する画像情報を受信する命令と、
実行された時に、ニューラルネットワークに基づく分類子を用いて前記1又は2以上のオブジェクトから第1オブジェクトを分類する命令と、
実行された時に、前記第1オブジェクトに関連付けられる予想されるオーディオ特性を識別する命令と、
実行された時に、前記予想されるオーディオ特性が前記オーディオシーンにおいて識別された前記第1オーディオ成分に対応するかどうかを決定する命令と、
を含む、
オーディオ信号符号器デバイス。 - 実行された時に、空間オーディオ信号を条件的に符号化する命令を更に含み、
前記命令は、実行された時に、
前記予想されるオーディオ特性が前記オーディオシーンにおいて識別された前記第1オーディオ成分に対応する時に、前記環境における前記第1オブジェクトに関する深度情報に基づいて前記空間オーディオ信号を符号化し、
前記予想されるオーディオ特性が前記オーディオシーンにおいて識別された第1オーディオ成分に対応しない時に、基準深度に基づいて前記空間オーディオ信号を符号化する命令を含み、
前記基準深度は、前記オーディオキャプチャソース及び/又は前記環境の特性である、
ことを特徴とする請求項25に記載のオーディオ信号符号器デバイス。 - 実行された時に、前記第1オーディオ成分を用いて及び前記環境における前記第1オブジェクトに関する深度情報を用いて空間オーディオ信号を符号化する命令を更に含む、
ことを特徴とする請求項25に記載の方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2019/055693 WO2021071498A1 (en) | 2019-10-10 | 2019-10-10 | Spatial audio capture with depth |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023504990A true JP2023504990A (ja) | 2023-02-08 |
JP7511635B2 JP7511635B2 (ja) | 2024-07-05 |
Family
ID=
Also Published As
Publication number | Publication date |
---|---|
WO2021071498A1 (en) | 2021-04-15 |
EP4042417A1 (en) | 2022-08-17 |
US20220345813A1 (en) | 2022-10-27 |
CN114902330A (zh) | 2022-08-12 |
US11997456B2 (en) | 2024-05-28 |
KR20220079931A (ko) | 2022-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11997456B2 (en) | Spatial audio capture and analysis with depth | |
US10007349B2 (en) | Multiple sensor gesture recognition | |
US11432097B2 (en) | User interface for controlling audio rendering for extended reality experiences | |
JP2020532914A (ja) | 仮想オーディオのスイートスポット適応法 | |
TWI713017B (zh) | 用於處理媒介資料之器件及方法與其之非暫時性電腦可讀儲存媒體 | |
US11429340B2 (en) | Audio capture and rendering for extended reality experiences | |
US11140503B2 (en) | Timer-based access for audio streaming and rendering | |
US11580213B2 (en) | Password-based authorization for audio rendering | |
US10728689B2 (en) | Soundfield modeling for efficient encoding and/or retrieval | |
US10972852B2 (en) | Adapting audio streams for rendering | |
US20210006976A1 (en) | Privacy restrictions for audio rendering | |
US20210006921A1 (en) | Adjustment of parameter settings for extended reality experiences | |
US20200053505A1 (en) | Rendering audio data from independently controlled audio zones | |
TW202117500A (zh) | 用於音訊呈現之隱私分區及授權 | |
US12010490B1 (en) | Audio renderer based on audiovisual information | |
TW202024896A (zh) | 六自由度及三自由度向後相容性 | |
WO2020002053A1 (en) | Audio processing | |
CN114270877A (zh) | 非重合视听捕获系统 | |
JP7511635B2 (ja) | 深度による空間オーディオキャプチャ | |
US11601776B2 (en) | Smart hybrid rendering for augmented reality/virtual reality audio |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220614 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221007 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231024 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231130 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240207 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240527 |