JP2022533755A - 空間オーディオをキャプチャする装置および関連する方法 - Google Patents
空間オーディオをキャプチャする装置および関連する方法 Download PDFInfo
- Publication number
- JP2022533755A JP2022533755A JP2021569318A JP2021569318A JP2022533755A JP 2022533755 A JP2022533755 A JP 2022533755A JP 2021569318 A JP2021569318 A JP 2021569318A JP 2021569318 A JP2021569318 A JP 2021569318A JP 2022533755 A JP2022533755 A JP 2022533755A
- Authority
- JP
- Japan
- Prior art keywords
- view
- audio
- field
- sound sources
- sound source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 54
- 239000003550 marker Substances 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 18
- 230000011664 signaling Effects 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 13
- 230000015654 memory Effects 0.000 description 26
- 230000006870 function Effects 0.000 description 15
- 238000004891 communication Methods 0.000 description 5
- 230000003190 augmentative effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000008447 perception Effects 0.000 description 4
- 230000002238 attenuated effect Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 239000002023 wood Substances 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000005452 bending Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
- G01S3/802—Systems for determining direction or deviation from predetermined direction
- G01S3/8025—Conical-scan beam systems using signals indicative of the deviation of the direction of reception from the scan axis
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
- G01S3/802—Systems for determining direction or deviation from predetermined direction
- G01S3/803—Systems for determining direction or deviation from predetermined direction using amplitude comparison of signals derived from receiving transducers or transducer systems having differently-oriented directivity characteristics
- G01S3/8034—Systems for determining direction or deviation from predetermined direction using amplitude comparison of signals derived from receiving transducers or transducer systems having differently-oriented directivity characteristics wherein the signals are derived simultaneously
- G01S3/8038—Systems for determining direction or deviation from predetermined direction using amplitude comparison of signals derived from receiving transducers or transducer systems having differently-oriented directivity characteristics wherein the signals are derived simultaneously derived from different combinations of signals from separate transducers comparing sum with difference
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
- G06F3/04817—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance using icons
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/04847—Interaction techniques to control parameter settings, e.g. interaction with sliders or dials
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0487—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
- G06F3/0488—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0487—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
- G06F3/0488—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
- G06F3/04883—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/04—Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/40—Visual indication of stereophonic sound image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2203/00—Indexing scheme relating to G06F3/00 - G06F3/048
- G06F2203/048—Indexing scheme relating to G06F3/048
- G06F2203/04808—Several contacts: gestures triggering a specific function, e.g. scrolling, zooming, right-click, when the user establishes several contacts with the surface simultaneously; e.g. using several fingers or a combination of fingers and pen
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2203/00—Details of circuits for transducers, loudspeakers or microphones covered by H04R3/00 but not provided for in any of its subgroups
- H04R2203/12—Beamforming aspects for stereophonic sound reproduction with loudspeaker arrays
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
- H04R2430/23—Direction finding using a sum-delay beam-former
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Stereophonic System (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
前記キャプチャデバイスのカメラによってキャプチャされ、視野(field of view)を有するビデオ画像(video imagery)であって、前記空間オーディオデータがそこからキャプチャされる前記空間の範囲が前記視野より大きい、前記ビデオ画像を受け取り、
前記方向情報から判定された前記1つまたは複数の音源のそれぞれを、前記視野内の音源については、前記ビデオ画像のうちの、前記音源に向かう方向に対応する領域に関連付け、前記視野の外部の音源については、前記視野の外部の前記空間の空間範囲(spatial extent)を示す視野外グラフィックのうちの、前記音源に向かう方向に対応する部分に関連付け、
前記ビデオ画像の表示を前記視野外グラフィックとともにディスプレイ上で提供し、
前記ビデオ画像のうちの領域または前記視野外グラフィック(out-of-view graphic)のうちの部分を選択するユーザ入力を受け取り、
前記1つまたは複数の音源のうちの選択された1つの音源の少なくとも1つのオーディオキャプチャ特性の制御であって、前記1つまたは複数の音源のうちの選択された前記1つの音源が前記ユーザ入力によって選択された前記領域または前記部分に関連付けられた前記1つまたは複数の音源のうちの1つを含む、前記制御を提供する
ように構成された手段を含む装置が提供される。
前記視野外グラフィックのうちの、前記1つまたは複数の音源に向かう方向に対応する部分と、
前記ビデオ画像のうちの、前記1つまたは複数の音源に向かう方向に対応する領域と、
のうちの1つまたは複数(例えば両方)におけるマーカの表示を提供するように構成される。
前記空間オーディオデータのうちの他のオーディオに適用される音量利得に対して相対的により大きな音量利得を有する選択された前記1つの音源をキャプチャまたは記録することと、
前記空間オーディオデータのうちの他のオーディオに適用される質に対して相対的により高い質を有する選択された前記1つの音源をキャプチャまたは記録することと、
選択された前記1つの音源の前記オーディオを前記空間オーディオデータのうちの他のオーディオとは分離したオーディオストリームとしてキャプチャまたは記録することと、のうちの少なくとも1つを行うように構成されていることを含む。
線の一端から他端までの線に沿った位置が、前記視野の少なくとも第1の境界に対応する方向から前記第1の境界とは反対側の前記視野の少なくとも第2の境界に対応する方向までの、前記音源の前記オーディオをそこから受け取られている方向を表す線と、
楕円(ellipse)の扇形区分(sector)であって、前記視野の少なくとも第1の境界に対応する方向から前記第1の境界とは反対側の前記視野の少なくとも第2の境界に対応する方向までの、前記扇形区分内の位置が前記音源の前記オーディオがそこから受け取られている方向を表す扇形区分と、のうちの少なくとも1つを含む。
前記キャプチャデバイスのカメラによってキャプチャされ、視野を有するビデオ画像であって、前記空間オーディオデータがそこからキャプチャされる前記空間の範囲が前記視野より大きい、前記ビデオ画像を受け取ることと、
前記方向情報から判定された前記1つまたは複数の音源のそれぞれを、前記視野内の音源については、前記ビデオ画像のうちの、前記音源に向かう方向に対応する領域に関連付け、前記視野の外部の音源については、前記視野の外部の前記空間の空間範囲を示す視野外グラフィックのうちの、前記音源に向かう方向に対応する部分に関連付けることと、
前記ビデオ画像の表示を前記視野外グラフィックとともにディスプレイ上で提供することと、
前記ビデオ画像のうちの領域または前記視野外グラフィックのうちの部分を選択するユーザ入力を受け取ることと、
前記1つまたは複数の音源のうちの選択された1つの音源の少なくとも1つのオーディオキャプチャ特性の制御であって、前記1つまたは複数の音源のうちの選択された前記1つの音源が前記ユーザ入力によって選択された前記領域または前記部分に関連付けられた前記1つまたは複数の音源のうちの1つを含む、前記制御を提供することとを含む。
前記視野外グラフィックのうちの、前記1つまたは複数の音源に向かう方向に対応する部分と、
前記ビデオ画像のうちの、前記1つまたは複数の音源に向かう方向に対応する領域と、
のうちの一方または両方におけるマーカの表示を提供するように構成される。
前記空間オーディオデータのうちの他のオーディオに適用される音量利得に対して相対的により大きな音量利得を有する選択された前記1つの音源をキャプチャまたは記録することと、
前記空間オーディオデータのうちの他のオーディオに適用される質に対して相対的により高い質を有する選択された前記1つの音源をキャプチャまたは記録することと、
選択された前記1つの音源の前記オーディオを前記空間オーディオデータのうちの他のオーディオとは分離したオーディオストリームとしてキャプチャまたは記録することと、
のうちの少なくとも1つを行う方法を含む。
キャプチャデバイスの周囲に延びる空間において1つまたは複数の音源からキャプチャされたオーディオと、前記1つまたは複数の音源に向かう方向を少なくとも示す方向情報とを含む空間オーディオデータであって、前記キャプチャデバイスによってキャプチャされる前記空間オーディオデータを受け取り、
前記キャプチャデバイスのカメラによってキャプチャされ、視野を有するビデオ画像であって、前記空間オーディオデータがそこからキャプチャされる前記空間の範囲が前記視野より大きい、前記ビデオ画像を受け取り、
前記方向情報から判定された前記1つまたは複数の音源のそれぞれを、前記視野内の音源については、前記ビデオ画像のうちの、前記音源に向かう方向に対応する領域に関連付け、前記視野の外部の音源については、前記視野の外部の前記空間の空間範囲を示す視野外グラフィックのうちの、前記音源に向かう方向に対応する部分に関連付け、
前記ビデオ画像の表示を前記視野外グラフィックとともにディスプレイ上で提供し、
前記ビデオ画像のうちの領域または前記視野外グラフィックのうちの部分を選択するユーザ入力を受け取り、
前記1つまたは複数の音源のうちの選択された1つの音源の少なくとも1つのオーディオキャプチャ特性の制御であって、前記1つまたは複数の音源のうちの選択された前記1つの音源が前記ユーザ入力によって選択された前記領域または前記部分に関連付けられた前記1つまたは複数の音源のうちの1つを含む、前記制御を提供する方法を実行するように構成される。
少なくとも1つのプロセッサと、
コンピュータプログラムコードを含む少なくとも1つのメモリとを含む装置が提供され、
前記少なくとも1つのメモリと前記コンピュータプログラムコードとは、前記少なくとも1つのプロセッサによって、前記装置に少なくとも、
キャプチャデバイスの周囲に延びる空間において1つまたは複数の音源からキャプチャされたオーディオと、前記1つまたは複数の音源に向かう方向を少なくとも示す方向情報とを含む空間オーディオデータであって、前記キャプチャデバイスによってキャプチャされる前記空間オーディオデータを受け取ることと、
前記キャプチャデバイスのカメラによってキャプチャされ、視野を有するビデオ画像であって、前記空間オーディオデータがそこからキャプチャされる前記空間の範囲が前記視野より大きい、前記ビデオ画像を受け取ることと、
前記方向情報から判定された前記1つまたは複数の音源のそれぞれを、前記視野内の音源については、前記ビデオ画像のうちの、前記音源に向かう方向に対応する領域に関連付け、前記視野の外部の音源については、前記視野の外部の前記空間の空間範囲を示す視野外グラフィックのうちの、前記音源に向かう方向に対応する部分に関連付けることと、
前記ビデオ画像の表示を前記視野外グラフィックとともにディスプレイ上で提供することと、
前記ビデオ画像のうちの領域または前記視野外グラフィックのうちの部分を選択するユーザ入力を受け取ることと、
前記1つまたは複数の音源のうちの選択された1つの音源の少なくとも1つのオーディオキャプチャ特性の制御であって、前記1つまたは複数の音源のうちの選択された前記1つの音源が前記ユーザ入力によって選択された前記領域または前記部分に関連付けられた前記1つまたは複数の音源のうちの1つを含む、前記制御を提供することとを実行させる。
キャプチャデバイスのカメラによってキャプチャされたビデオ画像を受け取るステップ702であって、ビデオ画像は視野を有し、空間オーディオデータがキャプチャされる空間の範囲が上記視野より大きい、上記ビデオ画像を受け取るステップ702と、
上記方向情報から判定された1つまたは複数の音源のそれぞれを、上記視野内の音源については音源に向かう方向に対応する、ビデオ画像の領域を関連付け、上記視野の外部の音源については音源に向かう方向に対応する、視野外グラフィックの部分を関連付けるステップ703であって、上記視野外グラフィックは上記視野の外部の空間の空間的範囲を示す、関連付けるステップ703と、
上記ビデオ画像の表示を上記視野外グラフィックとともにディスプレイ上で提供するステップ704と、
上記ビデオ画像のうちの領域または視野外グラフィックのうちの部分を選択するユーザ入力を受け取るステップ705と、
上記1つまたは複数の音源のうちの選択された1つの音源のうちの少なくとも1つのオーディオキャプチャ特性の制御を提供するステップ706であって、上記1つまたは複数の音源のうちの選択された上記1つの音源は、1つまたは複数の音源のうちの、ユーザ入力によって選択された領域または部分に関連付けられた1つの音源を含む、上記制御を提供するステップ706とを示す、流れ図を示す。
Claims (15)
- キャプチャデバイスの周囲に延びる空間において1つまたは複数の音源からキャプチャされたオーディオと、前記1つまたは複数の音源に向かう方向を少なくとも示す方向情報とを含む空間オーディオデータであって、前記キャプチャデバイスによってキャプチャされる前記空間オーディオデータを受け取り、
前記キャプチャデバイスのカメラによってキャプチャされ、視野を有するビデオ画像であって、前記空間オーディオデータがそこからキャプチャされる前記空間の範囲が前記視野より大きい、前記ビデオ画像を受け取り、
前記方向情報から判定された前記1つまたは複数の音源のそれぞれを、前記視野内の音源については、前記ビデオ画像のうちの、前記音源に向かう方向に対応する領域に関連付け、前記視野の外部の音源については、前記視野の外部の前記空間の空間範囲を示す視野外グラフィックのうちの、前記音源に向かう方向に対応する部分に関連付け、
前記ビデオ画像の表示を前記視野外グラフィックとともにディスプレイ上で提供し、
前記ビデオ画像のうちの領域または前記視野外グラフィックのうちの部分を選択するユーザ入力を受け取り、
前記1つまたは複数の音源のうちの選択された1つの音源の少なくとも1つのオーディオキャプチャ特性の制御であって、前記1つまたは複数の音源のうちの選択された前記1つの音源が前記ユーザ入力によって選択された前記領域または前記部分に関連付けられた前記1つまたは複数の音源のうちの1つを含む、前記制御を提供する
ように構成された手段を含む装置。 - 前記手段は、
前記視野外グラフィックのうちの、前記1つまたは複数の音源に向かう方向に対応する前記部分と、
前記ビデオ画像のうちの、前記1つまたは複数の音源に向かう方向に対応する前記領域と、
のうちの1つまたは複数におけるマーカの表示を提供するように構成されている、請求項1に記載の装置。 - 少なくとも1つのオーディオキャプチャ特性の前記制御は、前記手段が、ビーム形成技術を使用して選択された前記1つの音源のキャプチャまたは記録を行わせるシグナリングを提供するように構成されていることを含む、請求項1または2に記載の装置。
- 少なくとも1つのオーディオキャプチャ特性の前記制御は、前記手段が、
前記空間オーディオデータのうちの他のオーディオに適用される音量利得に対して相対的により大きな音量利得を有する選択された前記1つの音源をキャプチャまたは記録することと、
前記空間オーディオデータのうちの他のオーディオに適用される質に対して相対的により高い質を有する選択された前記1つの音源をキャプチャまたは記録することと、
選択された前記1つの音源の前記オーディオを前記空間オーディオデータのうちの他のオーディオとは分離したオーディオストリームとしてキャプチャまたは記録することと、
のうちの少なくとも1つを行うように構成されていることを含む、請求項1~3のいずれか1項に記載の装置。 - 前記手段は、前記方向情報を使用して、所定の閾値を上回る音量を有するオーディオがどの方向から受け取られているかを判定することによって、前記1つまたは複数の音源を判定するように構成されている、請求項1~4のいずれか1項に記載の装置。
- 前記視野の外部の前記空間の空間範囲を示す前記視野外グラフィックは、
線の一端から他端までの前記線に沿った位置が、前記視野外グラフィックに関連付けられた前記音源の前記オーディオがそこから受け取られている方向を表す線であって、前記線の前記一端は前記視野の少なくとも第1の境界に対応する方向を表し、前記線の前記他端は前記第1の境界とは反対側の前記視野の少なくとも第2の境界に対応する方向を表す、前記線と、
楕円の扇形区分であって、前記扇形区分内の位置が前記視野外グラフィックに関連付けられた前記音源の前記オーディオがそこから受け取られる方向を表し、前記扇形区分の第1の部分が前記視野の少なくとも第1の境界に対応する方向を表し、前記扇形区分の第2の部分が前記第1の境界とは反対側の前記視野の少なくとも第2の境界に対応する方向を表す、前記扇形区分と、
のうちの少なくとも1つを含む、請求項1~5のいずれか1項に記載の装置。 - 前記視野の外部の前記空間の空間範囲を示す前記視野外グラフィックは、前記キャプチャデバイスの周囲の面を表し、前記視野外グラフィックに対して相対的な提示されるマーカの位置が、前記音源の前記オーディオがそこから受け取られているアジマス方向を表し、前記視野外グラフィックよりある距離だけ上方または下方に図示されている前記提示されたマーカの位置が、前記面の上方または下方の前記音源の前記オーディオがそこから受け取られている高度方向に対応する、請求項1~6のいずれか1項に記載の装置。
- 前記手段は、前記ビデオ画像の前記領域または前記視野外グラフィックの前記部分を選択する、タッチセンシティブ入力デバイス上の場所におけるタップを含む前記ユーザ入力に基づいて、選択された前記領域または部分に対応する前記空間の前記領域に焦点を合わせるビーム形成技術の適用により少なくとも1つのオーディオキャプチャ特性を変更することによって、少なくとも1つの前記オーディオキャプチャ特性の制御を提供するように構成されている、請求項1~7のいずれか1項に記載の装置。
- 前記手段は、前記ビデオ画像の前記領域または前記視野外グラフィックの前記部分を選択する、タッチセンシティブ入力デバイス上の場所におけるピンチジェスチャを含む前記ユーザ入力に基づいて、前記ピンチジェスチャの大きさに関連する角度を有するビーム形成技術の適用により少なくとも1つのオーディオキャプチャ特性を変更することによって、少なくとも1つの前記オーディオキャプチャ特性の制御を提供するように構成された、請求項1~8のいずれか1項に記載の装置。
- 前記手段は、関連付けられた音源がない、前記ビデオ画像の領域または前記視野外グラフィックの部分を選択する受け取った前記ユーザ入力に基づいて、前記ビデオ画像の選択された前記領域または前記視野外グラフィックの部分に対応する方向に音源がないことを示す第2のマーカの表示を提供するように構成されている、請求項1~9のいずれか1項に記載の装置。
- 前記ビーム形成技術は、選択された前記音源の前記オーディオが強調される、遅延和ビームフォーマ技術またはパラメトリック空間オーディオ処理技術のうちの少なくとも一方を含む、請求項3に記載の装置。
- 前記手段は、制御された前記オーディオキャプチャ特性を有する選択された前記音源とともに前記空間オーディオデータの提示および記録の一方または両方を提供するように構成されている、請求項1~11のいずれか1項に記載の装置。
- 請求項1~12のいずれか1項に記載の装置と、前記ビデオ画像をキャプチャするように構成されたカメラと、前記空間オーディオデータをキャプチャするように構成された複数のマイクロホンと、前記装置によって前記ビデオ画像を前記視野外グラフィックとともに表示するために使用されるディスプレイとを含む、電子デバイス。
- キャプチャデバイスの周囲に延びる空間において1つまたは複数の音源からキャプチャされたオーディオと、前記1つまたは複数の音源に向かう方向を少なくとも示す方向情報とを含む空間オーディオデータであって、前記キャプチャデバイスによってキャプチャされる前記空間オーディオデータを受け取ることと、
前記キャプチャデバイスのカメラによってキャプチャされ、視野を有するビデオ画像であって、前記空間オーディオデータがそこからキャプチャされる前記空間の範囲が前記視野より大きい、前記ビデオ画像を受け取ることと、
前記方向情報から判定された前記1つまたは複数の音源のそれぞれを、前記視野内の音源については、前記ビデオ画像のうちの、前記音源に向かう方向に対応する領域に関連付け、前記視野の外部の音源については、前記視野の外部の前記空間の空間範囲を示す視野外グラフィックのうちの、前記音源に向かう方向に対応する部分に関連付けることと、
前記ビデオ画像の表示を前記視野外グラフィックとともにディスプレイ上で提供することと、
前記ビデオ画像のうちの領域または前記視野外グラフィックのうちの部分を選択するユーザ入力を受け取ることと、
前記1つまたは複数の音源のうちの選択された1つの音源の少なくとも1つのオーディオキャプチャ特性の制御であって、前記1つまたは複数の音源のうちの選択された前記1つの音源が前記ユーザ入力によって選択された前記領域または前記部分に関連付けられた前記1つまたは複数の音源のうちの1つを含む、前記制御を提供することと
を含む、方法。 - コンピュータプログラムコードが記憶されたコンピュータ可読媒体であって、前記コンピュータ可読媒体とコンピュータプログラムコードとは、少なくとも1つのプロセッサで実行されると、
キャプチャデバイスの周囲に延びる空間において1つまたは複数の音源からキャプチャされたオーディオと、前記1つまたは複数の音源に向かう方向を少なくとも示す方向情報とを含む空間オーディオデータであって、前記キャプチャデバイスによってキャプチャされる前記空間オーディオデータを受け取り、
前記キャプチャデバイスのカメラによってキャプチャされ、視野を有するビデオ画像であって、前記空間オーディオデータがそこからキャプチャされる前記空間の範囲が前記視野より大きい、前記ビデオ画像を受け取り、
前記方向情報から判定された前記1つまたは複数の音源のそれぞれを、前記視野内の音源については、前記ビデオ画像のうちの、前記音源に向かう方向に対応する領域に関連付け、前記視野の外部の音源については、前記視野の外部の前記空間の空間範囲を示す視野外グラフィックのうちの、前記音源に向かう方向に対応する部分に関連付け、
前記ビデオ画像の表示を前記視野外グラフィックとともにディスプレイ上で提供し、
前記ビデオ画像のうちの領域または前記視野外グラフィックのうちの部分を選択するユーザ入力を受け取り、
前記1つまたは複数の音源のうちの選択された1つの音源の少なくとも1つのオーディオキャプチャ特性の制御であって、前記1つまたは複数の音源のうちの選択された前記1つの音源が前記ユーザ入力によって選択された前記領域または前記部分に関連付けられた前記1つまたは複数の音源のうちの1つを含む、前記制御を提供する、方法を実行するように構成されている、コンピュータ可読媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP19175422.5A EP3742185B1 (en) | 2019-05-20 | 2019-05-20 | An apparatus and associated methods for capture of spatial audio |
EP19175422.5 | 2019-05-20 | ||
PCT/EP2020/062987 WO2020234015A1 (en) | 2019-05-20 | 2020-05-11 | An apparatus and associated methods for capture of spatial audio |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022533755A true JP2022533755A (ja) | 2022-07-25 |
JP7439131B2 JP7439131B2 (ja) | 2024-02-27 |
Family
ID=66751860
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021569318A Active JP7439131B2 (ja) | 2019-05-20 | 2020-05-11 | 空間オーディオをキャプチャする装置および関連する方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220225049A1 (ja) |
EP (1) | EP3742185B1 (ja) |
JP (1) | JP7439131B2 (ja) |
CN (1) | CN113853529A (ja) |
WO (1) | WO2020234015A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115134499B (zh) * | 2022-06-28 | 2024-02-02 | 世邦通信股份有限公司 | 一种音视频监控方法及系统 |
CN115134581A (zh) * | 2022-08-30 | 2022-09-30 | 四川中绳矩阵技术发展有限公司 | 一种图像和声音的融合重现方法、系统、设备及存储介质 |
CN115225884A (zh) * | 2022-08-30 | 2022-10-21 | 四川中绳矩阵技术发展有限公司 | 一种图像和声音的交互式重现方法、系统、设备和介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013106298A (ja) * | 2011-11-16 | 2013-05-30 | Sony Corp | 撮像制御装置、撮像制御方法、撮像制御方法のプログラムおよび撮像装置 |
JP2016146547A (ja) * | 2015-02-06 | 2016-08-12 | パナソニックIpマネジメント株式会社 | 収音システム及び収音方法 |
JP2016178652A (ja) * | 2013-07-09 | 2016-10-06 | ノキア テクノロジーズ オーユー | オーディオ処理装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009008823A (ja) * | 2007-06-27 | 2009-01-15 | Fujitsu Ltd | 音響認識装置、音響認識方法、及び、音響認識プログラム |
US8610671B2 (en) * | 2007-12-27 | 2013-12-17 | Apple Inc. | Insertion marker placement on touch sensitive display |
JP5277887B2 (ja) * | 2008-11-14 | 2013-08-28 | ヤマハ株式会社 | 信号処理装置およびプログラム |
WO2014162171A1 (en) * | 2013-04-04 | 2014-10-09 | Nokia Corporation | Visual audio processing apparatus |
US9716944B2 (en) * | 2015-03-30 | 2017-07-25 | Microsoft Technology Licensing, Llc | Adjustable audio beamforming |
GB2540175A (en) * | 2015-07-08 | 2017-01-11 | Nokia Technologies Oy | Spatial audio processing apparatus |
US11231905B2 (en) * | 2019-03-27 | 2022-01-25 | Intel Corporation | Vehicle with external audio speaker and microphone |
-
2019
- 2019-05-20 EP EP19175422.5A patent/EP3742185B1/en active Active
-
2020
- 2020-05-11 WO PCT/EP2020/062987 patent/WO2020234015A1/en active Application Filing
- 2020-05-11 JP JP2021569318A patent/JP7439131B2/ja active Active
- 2020-05-11 CN CN202080037691.6A patent/CN113853529A/zh active Pending
- 2020-05-11 US US17/608,633 patent/US20220225049A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013106298A (ja) * | 2011-11-16 | 2013-05-30 | Sony Corp | 撮像制御装置、撮像制御方法、撮像制御方法のプログラムおよび撮像装置 |
JP2016178652A (ja) * | 2013-07-09 | 2016-10-06 | ノキア テクノロジーズ オーユー | オーディオ処理装置 |
JP2016146547A (ja) * | 2015-02-06 | 2016-08-12 | パナソニックIpマネジメント株式会社 | 収音システム及び収音方法 |
Also Published As
Publication number | Publication date |
---|---|
EP3742185A1 (en) | 2020-11-25 |
EP3742185B1 (en) | 2023-08-09 |
US20220225049A1 (en) | 2022-07-14 |
JP7439131B2 (ja) | 2024-02-27 |
WO2020234015A1 (en) | 2020-11-26 |
CN113853529A (zh) | 2021-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110337318B (zh) | 混合现实装置中的虚拟和真实对象记录 | |
US20190139312A1 (en) | An apparatus and associated methods | |
US10798518B2 (en) | Apparatus and associated methods | |
EP2891955B1 (en) | In-vehicle gesture interactive spatial audio system | |
CN110121695B (zh) | 虚拟现实领域中的装置及相关联的方法 | |
US11432071B2 (en) | User interface for controlling audio zones | |
JP7439131B2 (ja) | 空間オーディオをキャプチャする装置および関連する方法 | |
CN111724823A (zh) | 一种信息处理方法及装置、电子设备 | |
US10887719B2 (en) | Apparatus and associated methods for presentation of spatial audio | |
US10993067B2 (en) | Apparatus and associated methods | |
JP2020520576A5 (ja) | ||
JP2022116221A (ja) | 空間オーディオに関する方法、装置およびコンピュータプログラム | |
EP3343957B1 (en) | Multimedia content | |
WO2019166278A1 (en) | An apparatus and associated methods for telecommunications | |
CN111492342A (zh) | 音频场景处理 | |
WO2019057530A1 (en) | APPARATUS AND ASSOCIATED METHODS FOR PRESENTING AUDIO IN THE FORM OF SPACE AUDIO | |
JP7037654B2 (ja) | キャプチャされた空間オーディオコンテンツの提示用の装置および関連する方法 | |
JP2021508193A5 (ja) | ||
CN114520950A (zh) | 音频输出方法、装置、电子设备及可读存储介质 | |
EP3588986A1 (en) | An apparatus and associated methods for presentation of audio | |
JP2023513318A (ja) | マルチメディアコンテンツ |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220105 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230126 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230301 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230531 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230928 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231020 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240115 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240214 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7439131 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |