JP2021132261A - 複数のマイクロフォンの収音信号をミキシングする装置、プログラム及び方法 - Google Patents
複数のマイクロフォンの収音信号をミキシングする装置、プログラム及び方法 Download PDFInfo
- Publication number
- JP2021132261A JP2021132261A JP2020025587A JP2020025587A JP2021132261A JP 2021132261 A JP2021132261 A JP 2021132261A JP 2020025587 A JP2020025587 A JP 2020025587A JP 2020025587 A JP2020025587 A JP 2020025587A JP 2021132261 A JP2021132261 A JP 2021132261A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- microphones
- display
- beamforming
- signals
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 15
- 230000005236 sound signal Effects 0.000 title abstract description 5
- 239000011159 matrix material Substances 0.000 claims abstract description 33
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 claims abstract description 9
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 3
- 230000000873 masking effect Effects 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 4
- 238000011161 development Methods 0.000 claims description 2
- 230000000007 visual effect Effects 0.000 abstract description 5
- 238000006243 chemical reaction Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 13
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 101150004094 PRO2 gene Proteins 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000003079 width control Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/04845—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range for image manipulation, e.g. dragging, rotation, expansion or change of colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/04847—Interaction techniques to control parameter settings, e.g. interaction with sliders or dials
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2201/00—Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
- H04R2201/40—Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
- H04R2201/401—2D or 3D arrays of transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/03—Synergistic effects of band splitting and sub-band processing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
- H04R2430/23—Direction finding using a sum-delay beam-former
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Otolaryngology (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Stereophonic System (AREA)
- Circuit For Audible Band Transducer (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
【課題】視覚的な映像範囲と聴覚的な音場範囲とに乖離を感じないよう、複数のマイクロフォンの収音信号をミキシングする装置等を提供する。【解決手段】M(≧2)個のマイクロフォンそれぞれの収音信号を記憶する収音信号記憶手段と、ユーザによって選択された、同一収音位置からの任意の角度区間を設定する角度区間設定手段と、M個の収音信号をそれぞれ、時間周波数成分に変換する周波数分析手段と、周波数分析手段によって変換されたM個の時間周波数成分に対して、角度区間に仮想マイクロフォンを集中配置するビームフォーミング行列を乗じて、隣り合う2個の時間周波数成分の組毎に、2チャネルの複数の音響信号を生成するビームフォーミング手段と、全ての組における音響信号をチャネル毎に合成して、チャネル毎の音響信号を出力する合成音響信号生成手段とを有する。【選択図】図3
Description
本発明は、複数のマイクロフォンにおける収音信号をミキシング(mixing)する技術に関する。
近年、VR(Virtual Reality)やAR(Augmented Reality)の技術の進展によって、ユーザに対するインタラクティブ視聴が注目されてきている。例えば全方位的(360度)な動画を再生する際に、ユーザ自らが、視野の画角(360度内における角度区間)を選択的に指定して、その画角の動画をディスプレイに表示することができる。
また、全方位的な動画を再生しつつ、360度全ての方向から収音した音響を再生する。この再生には、音場の全方位的合成を目的として、アンビソニックス方式、バイノーラル方式又はサラウンド方式が一般的に用いられる。
また、全方位的な動画を再生しつつ、360度全ての方向から収音した音響を再生する。この再生には、音場の全方位的合成を目的として、アンビソニックス方式、バイノーラル方式又はサラウンド方式が一般的に用いられる。
図1は、従来技術における円状マイクロフォンアレイの指向性を表す説明図である。
円状マイクロフォンアレイは、複数の指向性マイクロフォンを仮想的に3次元方向に向けて収音する。指向性マイクロフォン毎に、異なる角度を設定し、異なる方向から到来する音響を収音することができる。
図1によれば、例えば楽曲の演奏者が円周状に位置する場合、その中心に、円状マイクロフォンアレイを配置している。そのために、できる限り演奏者毎に指向性を向けて収音することができる。
図1によれば、例えば楽曲の演奏者が円周状に位置する場合、その中心に、円状マイクロフォンアレイを配置している。そのために、できる限り演奏者毎に指向性を向けて収音することができる。
従来、複数のマイクロフォンによって収音された音響信号を、ミキシングする技術がある。
例えば、2つのマイクロフォンによって収音した音響信号に対して、音場範囲の幅を調整(広げたり又は狭めたり)することができるステレオ幅制御の技術がある(例えば特許文献1参照)。この技術は、2つのマイクロフォンの収音信号から、音場の伸縮率に基づいて、右チャネルと左チャネルの2つの音響信号を生成する。チャネル毎の音響信号を、1組のステレオスピーカで駆動することによって、ユーザにとって音場範囲が調整されて聞こえる。
例えば、2つのマイクロフォンによって収音した音響信号に対して、音場範囲の幅を調整(広げたり又は狭めたり)することができるステレオ幅制御の技術がある(例えば特許文献1参照)。この技術は、2つのマイクロフォンの収音信号から、音場の伸縮率に基づいて、右チャネルと左チャネルの2つの音響信号を生成する。チャネル毎の音響信号を、1組のステレオスピーカで駆動することによって、ユーザにとって音場範囲が調整されて聞こえる。
また、3つ以上のマイクロフォンについても、ステレオ幅を制御すると共に、時間周波数マスキングを制御する技術もある(例えば特許文献2参照)。この技術によれば、予め配置された3つ以上のマイクロフォンによって収音した音響信号から、音場を選択的に合成することができる。
電子情報通信学会「知識の森」、2群(画像・音・言語)−6編(音響信号処理)−2章(音源分離)、[online]、[令和2年2月15日検索]、インターネット<URL:http://www.ieice-hbkb.org/files/02/02gun_06hen_02.pdf>
ZYLIA ZM-1 microphone(マルチトラック・レコーティング マイクロフォン・アレイ)、[online]、[令和2年2月16日検索]、インターネット<URL:https://www.minet.jp/brand/zylia/zylia-music-set/>
Insta360 Pro2、[online]、[令和2年2月16日検索]、インターネット<https://hacosco.com/insta360-pro2/>
複数のマイクロフォンそれぞれの収音信号をそのままミキシングした場合、スピーカから聞くユーザに向けて、各収音信号を同じレベルとして出力される。人の聴覚は全方位的であるために、収音信号を単に合成するに過ぎなかった。
この場合、例えばユーザがバイオリン演奏者を見ている場合であっても、そのバイオリンの収音信号は、他の楽器の収音信号と同じレベルとして聞こえてしまう。そのために、ユーザは、見ている映像範囲と、音場範囲とに、乖離を感じることとなっていた。
この場合、例えばユーザがバイオリン演奏者を見ている場合であっても、そのバイオリンの収音信号は、他の楽器の収音信号と同じレベルとして聞こえてしまう。そのために、ユーザは、見ている映像範囲と、音場範囲とに、乖離を感じることとなっていた。
また、特許文献2に記載の技術によれば、3つ以上のマイクロフォンは所定位置に予め配置されることを想定したものである。そのめに、調整すべき音場範囲が狭い場合には、有効なマイクロフォンの数が少なくなり、音像の定位精度が低下することとなっていた。
そこで、本発明は、ユーザにとって視覚的な映像範囲と聴覚的な音場範囲とに乖離を感じないように、複数のマイクロフォンの収音信号をミキシングする装置、プログラム及び方法を提供することを目的とする。
本発明によれば、収音信号をミキシングする装置において、
M(≧2)個のマイクロフォンそれぞれの収音信号を記憶する収音信号記憶手段と、
ユーザによって選択された、同一収音位置からの任意の角度区間を設定する角度区間設定手段と、
M個の収音信号をそれぞれ、時間周波数成分に変換する周波数分析手段と、
周波数分析手段によって変換されたM個の時間周波数成分に対して、角度区間に仮想マイクロフォンを集中配置するビームフォーミング行列を乗じて、隣り合う2個の時間周波数成分の組毎に、2チャネルの複数の音響信号を生成するビームフォーミング手段と、
全ての組における音響信号をチャネル毎に合成して、チャネル毎の音響信号を出力する合成音響信号生成手段と
を有することを特徴とする。
M(≧2)個のマイクロフォンそれぞれの収音信号を記憶する収音信号記憶手段と、
ユーザによって選択された、同一収音位置からの任意の角度区間を設定する角度区間設定手段と、
M個の収音信号をそれぞれ、時間周波数成分に変換する周波数分析手段と、
周波数分析手段によって変換されたM個の時間周波数成分に対して、角度区間に仮想マイクロフォンを集中配置するビームフォーミング行列を乗じて、隣り合う2個の時間周波数成分の組毎に、2チャネルの複数の音響信号を生成するビームフォーミング手段と、
全ての組における音響信号をチャネル毎に合成して、チャネル毎の音響信号を出力する合成音響信号生成手段と
を有することを特徴とする。
本発明の装置における他の実施形態によれば、
M個の収音信号を録音すると同時に、収音信号全体の音場範囲を撮影した音場映像を記憶する音場映像記憶手段と、
音場映像記憶手段に記憶された映像を視覚的に再生するディスプレイと、
合成音響信号生成手段から出力された音響信号を再生するチャネル毎のスピーカと
を更に有することも好ましい。
M個の収音信号を録音すると同時に、収音信号全体の音場範囲を撮影した音場映像を記憶する音場映像記憶手段と、
音場映像記憶手段に記憶された映像を視覚的に再生するディスプレイと、
合成音響信号生成手段から出力された音響信号を再生するチャネル毎のスピーカと
を更に有することも好ましい。
本発明の装置における他の実施形態によれば、
ディスプレイは、タッチパネルデバイス又はポインティングデバイスに対するユーザ操作に応じて、当該映像を拡大又は縮小可能なものであり、
角度区間設定手段は、ディスプレイに表示された当該映像における当該マイクロフォンから見た角度区間に設定する
ことも好ましい。
ディスプレイは、タッチパネルデバイス又はポインティングデバイスに対するユーザ操作に応じて、当該映像を拡大又は縮小可能なものであり、
角度区間設定手段は、ディスプレイに表示された当該映像における当該マイクロフォンから見た角度区間に設定する
ことも好ましい。
本発明の装置における他の実施形態によれば、
複数のマイクロフォンは、同一収音位置に配置されたものであり、
収音信号は、全方位に向けて配置された、各マイクロフォンによって録音されたものであり、
映像は、全方位を撮影可能なカメラによって録画されたものである
ことも好ましい。
複数のマイクロフォンは、同一収音位置に配置されたものであり、
収音信号は、全方位に向けて配置された、各マイクロフォンによって録音されたものであり、
映像は、全方位を撮影可能なカメラによって録画されたものである
ことも好ましい。
本発明の装置における他の実施形態によれば、
ディスプレイに表示される映像は、全方位を撮影した映像を、当該ディスプレイの水平方向へ並んで展開したものとなり、
ビームフォーミング手段から出力された各時間周波数成分に基づくマイクロフォンの位置は、当該ディスプレイの水平方向へ並んで展開したものとなり、
角度区間は、ディスプレイに表示された映像の水平方向の表示区間に応じたものとなり、
隣り合う2個の時間周波数成分の組は、ディスプレイに表示された映像の水平方向に隣り合うマイクロフォンの収音信号に基づくものである
ことも好ましい。
ディスプレイに表示される映像は、全方位を撮影した映像を、当該ディスプレイの水平方向へ並んで展開したものとなり、
ビームフォーミング手段から出力された各時間周波数成分に基づくマイクロフォンの位置は、当該ディスプレイの水平方向へ並んで展開したものとなり、
角度区間は、ディスプレイに表示された映像の水平方向の表示区間に応じたものとなり、
隣り合う2個の時間周波数成分の組は、ディスプレイに表示された映像の水平方向に隣り合うマイクロフォンの収音信号に基づくものである
ことも好ましい。
本発明の装置における他の実施形態によれば、
ビームフォーミング手段と共に、隣り合う2個の時間周波数成分の組毎に、仮想マイクロフォン間の音場の拡縮率となるスケーリング行列(拡縮係数)を乗ずるスケーリング手段を更に有し、
スケーリング行列は、ディスプレイに映る映像の表示範囲と、ビームフォーミングに基づく仮想マイクロフォンの配置間隔とから決定される
ことも好ましい。
ビームフォーミング手段と共に、隣り合う2個の時間周波数成分の組毎に、仮想マイクロフォン間の音場の拡縮率となるスケーリング行列(拡縮係数)を乗ずるスケーリング手段を更に有し、
スケーリング行列は、ディスプレイに映る映像の表示範囲と、ビームフォーミングに基づく仮想マイクロフォンの配置間隔とから決定される
ことも好ましい。
本発明の装置における他の実施形態によれば、
ビームフォーミング手段と共に、隣り合う2個の時間周波数成分の組毎に、仮想マイクロフォン間の左右移動のシフト量となるシフト行列(シフト係数)を乗ずるシフト手段を更に有し、
シフト行列は、ディスプレイに映る映像の表示範囲と、ビームフォーミングに基づく仮想マイクロフォンの配置間隔とから決定される
ことも好ましい。
ビームフォーミング手段と共に、隣り合う2個の時間周波数成分の組毎に、仮想マイクロフォン間の左右移動のシフト量となるシフト行列(シフト係数)を乗ずるシフト手段を更に有し、
シフト行列は、ディスプレイに映る映像の表示範囲と、ビームフォーミングに基づく仮想マイクロフォンの配置間隔とから決定される
ことも好ましい。
本発明の装置における他の実施形態によれば、
ビームフォーミング手段と共に、隣り合う2個の時間周波数成分の組毎に、仮想マイクロフォン間の音場の減衰量となるマスキング行列(減衰係数)を乗ずるマスキング手段を更に有し、
マスキング行列は、ディスプレイに映る映像の表示範囲と、ビームフォーミングに基づく仮想マイクロフォンの配置間隔とから決定される
ことも好ましい。
ビームフォーミング手段と共に、隣り合う2個の時間周波数成分の組毎に、仮想マイクロフォン間の音場の減衰量となるマスキング行列(減衰係数)を乗ずるマスキング手段を更に有し、
マスキング行列は、ディスプレイに映る映像の表示範囲と、ビームフォーミングに基づく仮想マイクロフォンの配置間隔とから決定される
ことも好ましい。
本発明によれば、収音信号をミキシングする装置に搭載されたコンピュータを機能させるプログラムにおいて、
M(≧2)個のマイクロフォンそれぞれの収音信号を記憶する収音信号記憶手段と、
ユーザによって選択された、同一収音位置からの任意の角度区間を設定する角度区間設定手段と、
M個の収音信号をそれぞれ、時間周波数成分に変換する周波数分析手段と、
周波数分析手段から出力されたM個の時間周波数成分に対して、角度区間に仮想マイクロフォンを集中配置するビームフォーミング行列を乗じて、隣り合う2個の時間周波数成分の組毎に、2チャネルの複数の音響信号を生成するビームフォーミング手段と、
全ての組における音響信号をチャネル毎に合成して、チャネル毎の音響信号を出力する合成音響信号生成手段と
してコンピュータを機能させることを特徴とする。
M(≧2)個のマイクロフォンそれぞれの収音信号を記憶する収音信号記憶手段と、
ユーザによって選択された、同一収音位置からの任意の角度区間を設定する角度区間設定手段と、
M個の収音信号をそれぞれ、時間周波数成分に変換する周波数分析手段と、
周波数分析手段から出力されたM個の時間周波数成分に対して、角度区間に仮想マイクロフォンを集中配置するビームフォーミング行列を乗じて、隣り合う2個の時間周波数成分の組毎に、2チャネルの複数の音響信号を生成するビームフォーミング手段と、
全ての組における音響信号をチャネル毎に合成して、チャネル毎の音響信号を出力する合成音響信号生成手段と
してコンピュータを機能させることを特徴とする。
本発明によれば、収音信号をミキシングする装置のミキシング方法において、
装置は、
M(≧2)個のマイクロフォンそれぞれの収音信号を記憶しており、
ユーザによって選択された、同一収音位置からの任意の角度区間を設定する第1のステップと、
M個の収音信号をそれぞれ、時間周波数成分に変換する第2のステップと、
第2のステップによって変換されたM個の時間周波数成分に対して、角度区間に仮想マイクロフォンを集中配置するビームフォーミング行列を乗じて、隣り合う2個の時間周波数成分の組毎に、2チャネルの複数の音響信号を生成する第3のステップと、
第3のステップによって生成された隣り合う2個の時間周波数成分の組毎に、2チャネルの複数の音響信号を生成する第4のステップと、
全ての組における音響信号をチャネル毎に合成して、チャネル毎の音響信号を出力する第5のステップと
を実行することを特徴とする。
装置は、
M(≧2)個のマイクロフォンそれぞれの収音信号を記憶しており、
ユーザによって選択された、同一収音位置からの任意の角度区間を設定する第1のステップと、
M個の収音信号をそれぞれ、時間周波数成分に変換する第2のステップと、
第2のステップによって変換されたM個の時間周波数成分に対して、角度区間に仮想マイクロフォンを集中配置するビームフォーミング行列を乗じて、隣り合う2個の時間周波数成分の組毎に、2チャネルの複数の音響信号を生成する第3のステップと、
第3のステップによって生成された隣り合う2個の時間周波数成分の組毎に、2チャネルの複数の音響信号を生成する第4のステップと、
全ての組における音響信号をチャネル毎に合成して、チャネル毎の音響信号を出力する第5のステップと
を実行することを特徴とする。
本発明の装置、プログラム及び方法によれば、ユーザにとって視覚的な映像範囲と聴覚的な音場範囲とに乖離を感じないように、複数のマイクロフォンの収音信号をミキシングすることができる。
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
図2は、本発明のメディア再生装置及び収音録画装置からなるシステム構成図である。
<収音録画装置2>
収音録画装置2は、球状マイクロフォンアレイ21と、全方位型カメラ22とから構成されている。
収音録画装置2は、球状マイクロフォンアレイ21と、全方位型カメラ22とから構成されている。
[球状マイクロフォンアレイ21]
球状マイクロフォンアレイ21は、複数(M個)のマイクロフォンを幾何学的に並べて、異なる方向からの収音を可能とする(例えば非特許文献2参照)。幾何学的とは、複数のマイクロフォンを等間隔に並べることに限られない。
また、球状マイクロフォンアレイ21に搭載される複数のマイクロフォンは、無指向性のものであってもよいし、指向性を持つものであってもよい。
球状マイクロフォンアレイ21は、複数(M個)のマイクロフォンを幾何学的に並べて、異なる方向からの収音を可能とする(例えば非特許文献2参照)。幾何学的とは、複数のマイクロフォンを等間隔に並べることに限られない。
また、球状マイクロフォンアレイ21に搭載される複数のマイクロフォンは、無指向性のものであってもよいし、指向性を持つものであってもよい。
図2によれば、球状マイクロフォンアレイ21は、各マイクロフォンを球表面に配置し、全方位から収音する。勿論、必ずしも球状である必要はなく、3次元的に立体配置されたものであってもよいし、2次元的に平面配置されたものであってもよい。
また、複数のマイクロフォンは、球表面上又は円周上に配置されることなく、例えば直線上、任意の曲線状、地理的な任意の位置上に配置されるものであってもよい。
また、複数のマイクロフォンは、球表面上又は円周上に配置されることなく、例えば直線上、任意の曲線状、地理的な任意の位置上に配置されるものであってもよい。
[全方位型カメラ22]
全方位型カメラ22は、複数のカメラそれぞれ異なる方向を撮影し、複数の撮影映像を合成した360度映像を生成する(例えば非特許文献3参照)。360度映像は、音場範囲を撮影した音場映像である。全方位型カメラ22は、球状マイクロフォンアレイ21の収音と同期して撮影する。
全方位型カメラ22は、複数のカメラそれぞれ異なる方向を撮影し、複数の撮影映像を合成した360度映像を生成する(例えば非特許文献3参照)。360度映像は、音場範囲を撮影した音場映像である。全方位型カメラ22は、球状マイクロフォンアレイ21の収音と同期して撮影する。
収音録画装置2は、球状マイクロフォンアレイ21によるマイクロフォン毎の収音信号と、全方位型カメラ22による音場映像とを、メディア再生装置1へ送信する。
<メディア再生装置1>
メディア再生装置1は、収音録画装置2から、各マイクロフォンの収音信号と、360度映像とを受信する。
メディア再生装置1は、ユーザが操作可能な端末であって、例えばスマートフォンやタブレット端末のように、少なくともディスプレイ及びスピーカを搭載したものである。
メディア再生装置1は、収音録画装置2から、各マイクロフォンの収音信号と、360度映像とを受信する。
メディア再生装置1は、ユーザが操作可能な端末であって、例えばスマートフォンやタブレット端末のように、少なくともディスプレイ及びスピーカを搭載したものである。
図3は、本発明におけるメディア再生装置の機能構成図である。
図3によれば、メディア再生装置1は、収音信号記憶部101と、音場映像記憶部102と、ディスプレイ103と、スピーカ104とを有する。
収音信号記憶部101は、収音録画装置1から、複数のマイクロフォンそれぞれの収音信号を受信して記憶する。図2によれば、各収音信号は、同一位置から3次元方向に立体配置されたM(≧2)個のマイクロフォンそれぞれのものである。また、収音信号毎に、同一位置における角度位置も予め記憶している。
音場映像記憶部102は、収音録画装置1から、音場範囲を撮影した音場映像を受信して記憶する。
ディスプレイ103は、音場映像記憶部102に記憶された映像を視覚的に再生するものである。例えばスマートフォンやタブレットのディスプレイであってもよいし、VRのヘッドマウントディスプレイであってもよい。
ディスプレイ103は、タッチパネルデバイス又はポインティングデバイスによってユーザ操作可能なものであって、表示される視覚範囲の映像に対して、表示位置の変更、及び、表示範囲の拡大又は縮小が可能なものである。
ディスプレイ103は、タッチパネルデバイス又はポインティングデバイスによってユーザ操作可能なものであって、表示される視覚範囲の映像に対して、表示位置の変更、及び、表示範囲の拡大又は縮小が可能なものである。
スピーカ104は、最終的にミキシングされた音響信号を再生する。ステレオの場合、左チャネル用のスピーカと右チャネル用のスピーカとからそれぞれ、合成された音響信号が出力される。
また、メディア再生装置1は、角度区間設定部11と、周波数分析部12と、ビームフォーミング部130と、合成音響信号生成部14とを有する。これら機能構成部は、メディア再生装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。また、これら機能構成部の処理の流れは、メディア再生方法としても理解できる。
[角度区間設定部11]
角度区間設定部11は、ユーザによって選択された、同一収音位置からの任意の角度区間(角周波数ω)を設定する。設定された角度区間は、ビームフォーミング部130へ出力される。
また、角度区間設定部11は、複数のマイクロフォンそれぞれの配置位置の情報を保持する。これによって、配置位置が隣り合うマイクロフォン同士を1つの組として分類する。
角度区間設定部11は、ユーザによって選択された、同一収音位置からの任意の角度区間(角周波数ω)を設定する。設定された角度区間は、ビームフォーミング部130へ出力される。
また、角度区間設定部11は、複数のマイクロフォンそれぞれの配置位置の情報を保持する。これによって、配置位置が隣り合うマイクロフォン同士を1つの組として分類する。
図4は、ユーザの視聴範囲とマイクロフォンの収音方向との位置関係を表す説明図である。
図4(a)によれば、角度区間設定部11は、ディスプレイ103に表示された映像から、収音録画装置2(複数のマイクロフォン)から見た角度区間を取得する。球状マイクロフォンアレイとして複数のマイクロフォンが球表面上に配置された場合、角度区間が取得される。ユーザは、ディスプレイ103に表示される映像の視聴範囲を、自らの操作によって設定することができる。即ち、角度範囲の設定とは、ディスプレイ103に表示される中心位置及びその視聴範囲(視野の角度区間)を設定することとなる。
また、角度区間は、複数のマイクロフォンが配置された直線又は曲線に沿った区間であってもよい。円周や曲線であっても、複数のマイクロフォンの位置を直線上に並べて、その区間を設定することができる。
図4(a)によれば、配置位置が隣り合うマイクロフォン同士を1つの組として、6個の組が構成されている。このように、円周の閉じた角度区間に複数のマイクロフォンを配置する場合、N個のマイクロフォンに対して、N個の組が設定される。一方、直線状に複数のマイクロフォンを配置する等、閉じていない直線上又は曲線状に複数のマイクロフォンを配置する場合には、N個のマイクロフォンに対して、N−1個の組が設定される。但し、閉じた角度区間に複数のマイクロフォンを配置する場合であっても、その一部の角度区間にのみマイクロフォンを配置する場合には、N個のマイクロフォンに対して、N−1個の組が設定される。
[周波数分析部12]
周波数分析部12は、M個の収音信号をそれぞれ、時間区間毎に離散フーリエ変換を実行し、時間周波数成分x(ω)に変換する。時間周波数成分はそれぞれ、入力音響信号(x(ω)=(x1,x2,・・・,xM)T)として、ビームフォーミング部130へ出力される。
周波数分析部12は、M個の収音信号をそれぞれ、時間区間毎に離散フーリエ変換を実行し、時間周波数成分x(ω)に変換する。時間周波数成分はそれぞれ、入力音響信号(x(ω)=(x1,x2,・・・,xM)T)として、ビームフォーミング部130へ出力される。
[ビームフォーミング部130]
ビームフォーミング部130は、周波数分析部12によって変換されたM個の入力音響信号(x(ω)=(x1,x2,・・・,xM)T)に対して、角度区間に仮想マイクロフォンを集中配置するビームフォーミング行列を乗ずる。そして、隣り合う2個の入力音響信号(時間周波数成分)の組毎に、2チャネルの複数の音響信号を生成する。
ビームフォーミング部130は、周波数分析部12によって変換されたM個の入力音響信号(x(ω)=(x1,x2,・・・,xM)T)に対して、角度区間に仮想マイクロフォンを集中配置するビームフォーミング行列を乗ずる。そして、隣り合う2個の入力音響信号(時間周波数成分)の組毎に、2チャネルの複数の音響信号を生成する。
「ビームフォーミング」とは、マイクロフォンアレイを用いて指向性を制御する信号処理をいう(例えば非特許文献1参照)。音源からマイクロフォンへの音波伝搬がそれぞれ異なることに基づいて、遅延及びフィルタにより位相や振幅を制御した信号同士を干渉させて、特定方向からの信号を強調又は低減する。
本発明によれば、「固定ビームフォーミング」を適用する。その中でも、フィルタによって周波数と指向性との関係を変化させる「フィルタ アンド サムビームフォーマ(Filter-and-Sum Beamformer)」を適用する。
本発明によれば、「固定ビームフォーミング」を適用する。その中でも、フィルタによって周波数と指向性との関係を変化させる「フィルタ アンド サムビームフォーマ(Filter-and-Sum Beamformer)」を適用する。
y(ω)=Σn=1 NBn(ω,n)・x(ω)
x(ω)=(x1,x2,・・・,xM)T:マイクロフォン毎の入力音響信号
y(ω) =(yL,yR)T:合成した2チャネルのステレオ音響信号
B(ω):視聴範囲に複数の仮想マイクロフォンを集中配置する
ビームフォーミング行列
Bn(ω,n):仮想マイクロフォン毎のビームフォーミング行列
N:M個の入力信号x(ω)の中で隣り合う仮想マイクロフォンペア数
n:仮想マイクロフォンペア毎
x(ω)=(x1,x2,・・・,xM)T:マイクロフォン毎の入力音響信号
y(ω) =(yL,yR)T:合成した2チャネルのステレオ音響信号
B(ω):視聴範囲に複数の仮想マイクロフォンを集中配置する
ビームフォーミング行列
Bn(ω,n):仮想マイクロフォン毎のビームフォーミング行列
N:M個の入力信号x(ω)の中で隣り合う仮想マイクロフォンペア数
n:仮想マイクロフォンペア毎
図4(b)によれば、視聴範囲に対して、仮想マイクロフォン毎の音場範囲の幅が制御されている。ここで、各仮想マイクロフォンの収音方向(ビーム方向)は、視聴範囲に集中配置される。例えば、1個の仮想マイクロフォンの組のみの収音方向を、視聴範囲外へ向けて、N−1個の仮想マイクロフォンの組の収音方向を、視聴範囲内へ等角度に向けるものであってもよい。勿論、視聴範囲外へ向ける仮想マイクロフォンの組を、1個とすることなく、任意の個数とするものであってもよい。
図5は、音場の映像範囲と仮想マイクロフォンの位置との関係を表す説明図である。
図5によれば、収音録画装置2によって全方位を撮影した360度映像を、水平方向の平面状に並べて展開している。メディア再生装置1のディスプレイ103に表示される視聴範囲は、平面状の360度映像の一部(角度区間)となる。即ち、角度区間は、ディスプレイ103に表示された映像の水平方向の表示区間に対応する。
また、隣り合う2個の入力音響信号の組は、ディスプレイ103に表示された映像の水平方向に隣り合うマイクロフォンの収音信号に基づくものとなる。
また、隣り合う2個の入力音響信号の組は、ディスプレイ103に表示された映像の水平方向に隣り合うマイクロフォンの収音信号に基づくものとなる。
図5(a)によれば、図4(a)に対応して、マイクロフォンの位置が表されている。マイクロフォンが等角度に配置されている場合、仮想マイクロフォン同士の位置の幅も等しくなる。
図5(b)によれば、図4(b)に対応して、仮想マイクロフォンの位置が表されている。ここでは、複数の仮想マイクロフォンの収音方向が、視聴範囲に集中配置される。
図5(b)によれば、図4(b)に対応して、仮想マイクロフォンの位置が表されている。ここでは、複数の仮想マイクロフォンの収音方向が、視聴範囲に集中配置される。
[合成音響信号生成部14]
合成音響信号生成部14は、全ての組における音響信号をチャネル毎に合成して、チャネル毎の音響信号を出力する。チャネル毎の音響信号は、1組のスピーカへ出力される。
y(ω)=Σn=1 NBn(ω,n)・x(ω)
合成音響信号生成部14は、全ての組における音響信号をチャネル毎に合成して、チャネル毎の音響信号を出力する。チャネル毎の音響信号は、1組のスピーカへ出力される。
y(ω)=Σn=1 NBn(ω,n)・x(ω)
図6は、入力音響信号とステレオ音響信号との関係を表す第1の模式図である。
図6によれば、複数のマイクロフォンそれぞれからの入力音響信号x(ω)は、各ビームフォーミング部130によって離散逆フーリエ変換され、右チャネルの音響信号と左チャネルの音響信号とが出力される。そして、各ビームフォーミング部130から出力された音響信号は、チャネル毎に加算される。
<他の実施形態>
前述した実施形態によれば、ビームフォーミングに注目して説明した。これに対しビームフォーミング部130と共に、スケーリング部131と、シフト部132と、マスキング部133とを更に備えることも好ましい。これら機能構成部については、特許文献2にも詳述されたものである。
前述した実施形態によれば、ビームフォーミングに注目して説明した。これに対しビームフォーミング部130と共に、スケーリング部131と、シフト部132と、マスキング部133とを更に備えることも好ましい。これら機能構成部については、特許文献2にも詳述されたものである。
[スケーリング部131]
スケーリング部131は、ビームフォーミング部130と共に、隣り合う2個の時間周波数成分の組毎に、仮想マイクロフォン間の音場の拡縮率となるスケーリング行列(拡縮係数)を乗ずるものである。
スケーリング行列は、ディスプレイ103に映る映像の表示範囲と、ビームフォーミングに基づく仮想マイクロフォンの配置間隔とから決定される。
Kn(ω,κn):ステレオ幅の拡大又は縮小するスケーリング行列
κn:音場範囲を制御するスケーリング(拡縮)係数(0〜2)
κn=1:変更なし、κn<1:縮小、κn>1:拡大
φ(ω):2つの音響信号の偏角の主値(−π<Φ(ω)≦πとする整数)
スケーリング部131は、ビームフォーミング部130と共に、隣り合う2個の時間周波数成分の組毎に、仮想マイクロフォン間の音場の拡縮率となるスケーリング行列(拡縮係数)を乗ずるものである。
スケーリング行列は、ディスプレイ103に映る映像の表示範囲と、ビームフォーミングに基づく仮想マイクロフォンの配置間隔とから決定される。
κn:音場範囲を制御するスケーリング(拡縮)係数(0〜2)
κn=1:変更なし、κn<1:縮小、κn>1:拡大
φ(ω):2つの音響信号の偏角の主値(−π<Φ(ω)≦πとする整数)
例えばユーザが、ディスプレイ103に表示される映像の中央を拡大するように操作した場合、中央付近に更なる仮想マイクロフォンを集中させ、中央のκnを大きく、左及び右のκnを小さくする。
[シフト部132]
シフト部132は、ビームフォーミング部130と共に、隣り合う2個の時間周波数成分の組毎に、仮想マイクロフォン間の左右移動のシフト量となるシフト行列(シフト係数)を乗ずるものである。
シフト行列は、ディスプレイ103に映る映像の表示範囲と、ビームフォーミングに基づく仮想マイクロフォンの配置間隔とから決定される。
Tn(ω,τn):左右に移動させるシフト行列
τn:シフト量(-c≦τn≦c、c:時間定数)
τn<0(負値):左移動、τn>0(正値):右移動
シフト部132は、ビームフォーミング部130と共に、隣り合う2個の時間周波数成分の組毎に、仮想マイクロフォン間の左右移動のシフト量となるシフト行列(シフト係数)を乗ずるものである。
シフト行列は、ディスプレイ103に映る映像の表示範囲と、ビームフォーミングに基づく仮想マイクロフォンの配置間隔とから決定される。
τn:シフト量(-c≦τn≦c、c:時間定数)
τn<0(負値):左移動、τn>0(正値):右移動
例えばユーザが、ディスプレイ103に表示される映像の中央を拡大するように操作した場合、中央付近に更なる仮想マイクロフォンを集中させ、中央のκnを変更せず、左側のτnは左移動のために負値に、右側のτnは右移動のために正値とする。
[マスキング部133]
ビームフォーミング部130と共に、隣り合う2個の時間周波数成分の組毎に、仮想マイクロフォン間の音場の減衰量となるマスキング行列(減衰係数)を乗ずるものである。
マスキング行列は、ディスプレイ103に映る映像の表示範囲と、ビームフォーミングに基づく仮想マイクロフォンの配置間隔とから決定される。
Mn(ω,mn(ω))=diag(mn(ω),mn+1(ω))
Mn(ω,mn(ω)):複数チャネル間の音場の選択的合成を実現するマスキング行列
mn(ω):マスキング減衰係数(0〜1)
mn(ω)=1:通過、mn(ω)<1:抑圧、mn(ω)=0:不通過
マスキング減衰係数は、音場の選択的合成とマイクロフォンの指向性パターンを考慮して、距離減衰の効果を与える。
ビームフォーミング部130と共に、隣り合う2個の時間周波数成分の組毎に、仮想マイクロフォン間の音場の減衰量となるマスキング行列(減衰係数)を乗ずるものである。
マスキング行列は、ディスプレイ103に映る映像の表示範囲と、ビームフォーミングに基づく仮想マイクロフォンの配置間隔とから決定される。
Mn(ω,mn(ω))=diag(mn(ω),mn+1(ω))
Mn(ω,mn(ω)):複数チャネル間の音場の選択的合成を実現するマスキング行列
mn(ω):マスキング減衰係数(0〜1)
mn(ω)=1:通過、mn(ω)<1:抑圧、mn(ω)=0:不通過
マスキング減衰係数は、音場の選択的合成とマイクロフォンの指向性パターンを考慮して、距離減衰の効果を与える。
前述したように、ビームフォーミング部130に加えて、スケーリング部131、シフト部132及びマスキング部133を考慮すると、合成音響信号生成部14は、以下のようなステレオ音響信号を生成する。
y(ω)=Σn=1 NMn(ω,mn(ω))Tn(ω,τn)K(ω,κn)Bn(ω,n)・x(ω)
y(ω)=Σn=1 NMn(ω,mn(ω))Tn(ω,τn)K(ω,κn)Bn(ω,n)・x(ω)
図7は、入力音響信号とステレオ音響信号との関係を表す第2の模式図である。
図7によれば、複数のマイクロフォンそれぞれからの入力音響信号x(ω)は、各ビームフォーミング部130、スケーリング部131、シフト部132及びマスキング部133によって離散逆フーリエ変換され、右チャネルの音響信号と左チャネルの音響信号とが出力される。そして、最終段のマスキング部133から出力された音響信号は、チャネル毎に加算される。
図8は、仮想マイクロフォンと音源との位置関係を表す説明図である。
図8によれば、仮想マイクロフォンA及びBの間に、音源C及びDが位置する場合を表す。
仮想マイクロフォンAの入力音響信号A
仮想マイクロフォンBの入力音響信号B
左チャネルの出力音響信号L
右チャネルの出力音響信号R
仮想マイクロフォンAの入力音響信号A
仮想マイクロフォンBの入力音響信号B
左チャネルの出力音響信号L
右チャネルの出力音響信号R
図8(a)によれば、以下のように設定されているとする。
マスキング減衰係数:m1=1、m2=1
シフト量:τ=0
スケーリング係数:κ=1
この場合、行列M及びTについては、入力音響信号A及びBを何ら変化させることがなく、以下のような出力音響信号となる。
出力音響信号R=入力音響信号A
出力音響信号L=入力音響信号B
そのために、仮想マイクロフォンA及びBの位置にスピーカを置いて音響信号R及びLでそれぞれを駆動すると、マイクロフォンA及びBが配置されている方向における音場範囲は、マイクロフォンA及びBの収音範囲と同等になる。
図8(a)における音源C及びDの位置では、中央破線の位置は、マイクロフォンAとBとの中間位置である。この場合、出力音響信号となる音源C及び音源Dの音像の位置は、音源C及び音源Dの配置位置と同じ位置となる。
マスキング減衰係数:m1=1、m2=1
シフト量:τ=0
スケーリング係数:κ=1
この場合、行列M及びTについては、入力音響信号A及びBを何ら変化させることがなく、以下のような出力音響信号となる。
出力音響信号R=入力音響信号A
出力音響信号L=入力音響信号B
そのために、仮想マイクロフォンA及びBの位置にスピーカを置いて音響信号R及びLでそれぞれを駆動すると、マイクロフォンA及びBが配置されている方向における音場範囲は、マイクロフォンA及びBの収音範囲と同等になる。
図8(a)における音源C及びDの位置では、中央破線の位置は、マイクロフォンAとBとの中間位置である。この場合、出力音響信号となる音源C及び音源Dの音像の位置は、音源C及び音源Dの配置位置と同じ位置となる。
図8(b)によれば、以下のように設定されているとする。
マスキング減衰係数:m1=1、m2=1
シフト量:τ=0
ここで、スケーリング係数κ<1の音場範囲は、κ=1の音場範囲よりも短くなる。このとき、マイクロフォンA及びBの位置に配置したスピーカから出力音響信号R及び音響信号Lで駆動すると、音源Cの音像の位置は、音源Cの配置位置と同じ中央破線になる。しかしながら、音源Dの音像の位置は、音源Dの配置位置より中央破線に近づくようになる。
逆に、スケーリング係数κ>1の音場範囲は、κ=1の音場範囲よりも長くなる。
マスキング減衰係数:m1=1、m2=1
シフト量:τ=0
ここで、スケーリング係数κ<1の音場範囲は、κ=1の音場範囲よりも短くなる。このとき、マイクロフォンA及びBの位置に配置したスピーカから出力音響信号R及び音響信号Lで駆動すると、音源Cの音像の位置は、音源Cの配置位置と同じ中央破線になる。しかしながら、音源Dの音像の位置は、音源Dの配置位置より中央破線に近づくようになる。
逆に、スケーリング係数κ>1の音場範囲は、κ=1の音場範囲よりも長くなる。
図8(a)(b)のように、τ=0のとき、行列Tは、入力音響信号A及びBに何ら影響を与えない。一方で、τ≠0のとき、行列Tは、入力音響信号A及びBにそれぞれ同じ絶対値で異なる符号の位相変化を与える。そのために、音像の位置がτの値に応じてマイクロフォンA又はBの方向にシフトする。尚、シフトの方向は、τの正負に応じて決定され、τの絶対値が大きくなるほど、そのシフト量は大きくなる。
図8(c)によれば、図8(b)の音場範囲となるκとした上で、τ≠0に設定したときの音場範囲を表している。音源C及びDの音像の位置は、図8(b)よりも左側にシフトしている。
尚、図8については、説明のためにスピーカをマイクロフォンA及びBの位置に置くものとしたが、RチャネルとLチャネルの2つのスピーカを設置する距離は任意の距離とすることができる。この場合、音場範囲はスピーカの配置距離に応じたものにもなる。
図9は、マイクロフォン同士の組を表す説明図である。
最初に、視聴範囲の角度区間内に少なくとも1つのマイクロフォンが含まれるか否かを判定する。
図9(a)によれば、角度区間内に少なくとも1つのマイクロフォンが含まれる場合を表す。
第1組:両方のマイクロフォンが角度区間に含まれる組
第2組:両方のマイクロフォンが共に角度区間に含まれない組
第3組:一方のマイクロフォンが角度区間に含まれ、他方のマイクロフォンが角度
区間に含まれない組
L1:一方のマイクロフォンの位置から角度区間境界までの重複区間
L2:他方のマイクロフォンの位置から角度区間境界までの非重複区間
図9(a)によれば、角度区間内に少なくとも1つのマイクロフォンが含まれる場合を表す。
第1組:両方のマイクロフォンが角度区間に含まれる組
第2組:両方のマイクロフォンが共に角度区間に含まれない組
第3組:一方のマイクロフォンが角度区間に含まれ、他方のマイクロフォンが角度
区間に含まれない組
L1:一方のマイクロフォンの位置から角度区間境界までの重複区間
L2:他方のマイクロフォンの位置から角度区間境界までの非重複区間
図9(b)によれば、マイクロフォンが1つも角度区間内に含まれない場合である。この場合、以下のようにする。
第3組:角度区間に最も近い2つのマイクロフォンの組
両方のマイクロフォンの位置から角度区間境界までの2つの非重複区間
第2組:上記の第3組以外のマイクロフォンの組
第3組:角度区間に最も近い2つのマイクロフォンの組
両方のマイクロフォンの位置から角度区間境界までの2つの非重複区間
第2組:上記の第3組以外のマイクロフォンの組
第1組について、例えばτ=0、κ=1、mA=0、mB=0とする。即ち、音場の拡縮、シフト、減衰をさせないとする。
一方で、第3組について、κ及びτは、音場範囲が重複区間に応じたものとなるように設定する。即ち、第3組のスケーリング係数κを、重複区間の長さL1に基づいて設定する。具体的には、第3組の2つのマイクロフォン間の距離Lとして、L1/Lの拡縮率となるように、当該第3組に対するスケーリング係数κを決定する。これによって、第3組の重複区間の長さが短くなるほど、音場範囲を短くするように当該第3組のスケーリング係数κを決定する。
また、重複区間の中心位置に音場の中心位置がくるように第3組のシフト係数τを設定する。そのために、2つのマイクロフォンの配置位置の中心と重複区間の中心との距離に応じて第3組のシフト係数を決定する。
更に、第3組の2つのマイクロフォンの減衰係数について、mA=1及びmB=1に設定する。又は、第3組について、角度区間に含まれるマイクロフォンの減衰係数を、第1組の2つのマイクロフォンの減衰係数と同じ値に設定する。これによって、角度区間に含まれないマイクロフォンの減衰係数については、角度区間に含まれるマイクロフォンの減衰量より大きい減衰量となるように設定する。又は、第3組の角度区間に含まれないマイクロフォンの減衰係数については、非重複区間の長さ、即ち、マイクの配置位置から視聴範囲の角度区間までの最短距離L2が大きくなるほど、減衰量が大きくなるように設定する。
一方で、第3組について、κ及びτは、音場範囲が重複区間に応じたものとなるように設定する。即ち、第3組のスケーリング係数κを、重複区間の長さL1に基づいて設定する。具体的には、第3組の2つのマイクロフォン間の距離Lとして、L1/Lの拡縮率となるように、当該第3組に対するスケーリング係数κを決定する。これによって、第3組の重複区間の長さが短くなるほど、音場範囲を短くするように当該第3組のスケーリング係数κを決定する。
また、重複区間の中心位置に音場の中心位置がくるように第3組のシフト係数τを設定する。そのために、2つのマイクロフォンの配置位置の中心と重複区間の中心との距離に応じて第3組のシフト係数を決定する。
更に、第3組の2つのマイクロフォンの減衰係数について、mA=1及びmB=1に設定する。又は、第3組について、角度区間に含まれるマイクロフォンの減衰係数を、第1組の2つのマイクロフォンの減衰係数と同じ値に設定する。これによって、角度区間に含まれないマイクロフォンの減衰係数については、角度区間に含まれるマイクロフォンの減衰量より大きい減衰量となるように設定する。又は、第3組の角度区間に含まれないマイクロフォンの減衰係数については、非重複区間の長さ、即ち、マイクの配置位置から視聴範囲の角度区間までの最短距離L2が大きくなるほど、減衰量が大きくなるように設定する。
第2組については、第1組と同様に、例えばτ=0、κ=1とする。ここで、2つのマイクロフォンの減衰係数については、第1組及び第3組のマイクに対して設定した減衰係数より減衰量が大きくなる値に設定する。例えば第2組の2つのマイクロフォンの減衰係数を減衰量が最大となる値、即ち、0に設定するか、又は、0に近い所定の値に設定する。
図9(c)によれば、以下のような組となる。
第3組:マイクロフォンA及びBの組
第3組:マイクロフォンA及びCの組
第2組:その他の組は
ここで、第2組のマイクロフォンに対する減衰量は大きいため、これらの組の音響信号は、出力音響信号R及びLには殆ど含まれなくなる。
第3組:マイクロフォンA及びBの組
第3組:マイクロフォンA及びCの組
第2組:その他の組は
ここで、第2組のマイクロフォンに対する減衰量は大きいため、これらの組の音響信号は、出力音響信号R及びLには殆ど含まれなくなる。
以上、詳細に説明したように、本発明の装置、プログラム及び方法によれば、ユーザにとって視覚的な映像範囲と聴覚的な音場範囲とに乖離を感じないように、複数のマイクロフォンの収音信号をミキシングすることができる。
本発明によれば、ユーザにとって、音像の高い定位精度を持つ360度動画のインタラクティブ視聴を提供することができる。
本発明によれば、ユーザにとって、音像の高い定位精度を持つ360度動画のインタラクティブ視聴を提供することができる。
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
1 メディア再生装置
101 収音信号記憶部
102 音場映像記憶部
103 ディスプレイ
104 スピーカ
11 角度区間設定部
12 周波数分析部
130 ビームフォーミング部
131 スケーリング部
132 シフト部
133 マスキング部
14 合成音響信号生成部
2 収音録画装置
21 球状マイクロフォンアレイ
22 全方位型カメラ
101 収音信号記憶部
102 音場映像記憶部
103 ディスプレイ
104 スピーカ
11 角度区間設定部
12 周波数分析部
130 ビームフォーミング部
131 スケーリング部
132 シフト部
133 マスキング部
14 合成音響信号生成部
2 収音録画装置
21 球状マイクロフォンアレイ
22 全方位型カメラ
Claims (10)
- 収音信号をミキシングする装置において、
M(≧2)個のマイクロフォンそれぞれの収音信号を記憶する収音信号記憶手段と、
ユーザによって選択された、同一収音位置からの任意の角度区間を設定する角度区間設定手段と、
M個の収音信号をそれぞれ、時間周波数成分に変換する周波数分析手段と、
周波数分析手段によって変換されたM個の時間周波数成分に対して、角度区間に仮想マイクロフォンを集中配置するビームフォーミング行列を乗じて、隣り合う2個の時間周波数成分の組毎に、2チャネルの複数の音響信号を生成するビームフォーミング手段と、
全ての組における音響信号をチャネル毎に合成して、チャネル毎の音響信号を出力する合成音響信号生成手段と
を有することを特徴とする装置。 - M個の収音信号を録音すると同時に、収音信号全体の音場範囲を撮影した音場映像を記憶する音場映像記憶手段と、
音場映像記憶手段に記憶された映像を視覚的に再生するディスプレイと、
合成音響信号生成手段から出力された音響信号を再生するチャネル毎のスピーカと
を更に有することを特徴とする請求項1に記載の装置。 - ディスプレイは、タッチパネルデバイス又はポインティングデバイスに対するユーザ操作に応じて、当該映像を拡大又は縮小可能なものであり、
角度区間設定手段は、ディスプレイに表示された当該映像における当該マイクロフォンから見た角度区間に設定する
ことを特徴とする請求項2に記載の装置。 - 複数のマイクロフォンは、同一収音位置に配置されたものであり、
収音信号は、全方位に向けて配置された、各マイクロフォンによって録音されたものであり、
映像は、全方位を撮影可能なカメラによって録画されたものである
ことを特徴とする請求項3に記載の装置。 - ディスプレイに表示される映像は、全方位を撮影した映像を、当該ディスプレイの水平方向へ並んで展開したものとなり、
ビームフォーミング手段から出力された各時間周波数成分に基づくマイクロフォンの位置は、当該ディスプレイの水平方向へ並んで展開したものとなり、
角度区間は、ディスプレイに表示された映像の水平方向の表示区間に応じたものとなり、
隣り合う2個の時間周波数成分の組は、ディスプレイに表示された映像の水平方向に隣り合うマイクロフォンの収音信号に基づくものである
ことを特徴とする請求項4に記載の装置。 - ビームフォーミング手段と共に、隣り合う2個の時間周波数成分の組毎に、仮想マイクロフォン間の音場の拡縮率となるスケーリング行列(拡縮係数)を乗ずるスケーリング手段を更に有し、
スケーリング行列は、ディスプレイに映る映像の表示範囲と、ビームフォーミングに基づく仮想マイクロフォンの配置間隔とから決定される
ことを特徴とする請求項1から5のいずれか1項に記載の装置。 - ビームフォーミング手段と共に、隣り合う2個の時間周波数成分の組毎に、仮想マイクロフォン間の左右移動のシフト量となるシフト行列(シフト係数)を乗ずるシフト手段を更に有し、
シフト行列は、ディスプレイに映る映像の表示範囲と、ビームフォーミングに基づく仮想マイクロフォンの配置間隔とから決定される
ことを特徴とする請求項1から6のいずれか1項に記載の装置。 - ビームフォーミング手段と共に、隣り合う2個の時間周波数成分の組毎に、仮想マイクロフォン間の音場の減衰量となるマスキング行列(減衰係数)を乗ずるマスキング手段を更に有し、
マスキング行列は、ディスプレイに映る映像の表示範囲と、ビームフォーミングに基づく仮想マイクロフォンの配置間隔とから決定される
ことを特徴とする請求項1から7のいずれか1項に記載の装置。 - 収音信号をミキシングする装置に搭載されたコンピュータを機能させるプログラムにおいて、
M(≧2)個のマイクロフォンそれぞれの収音信号を記憶する収音信号記憶手段と、
ユーザによって選択された、同一収音位置からの任意の角度区間を設定する角度区間設定手段と、
M個の収音信号をそれぞれ、時間周波数成分に変換する周波数分析手段と、
周波数分析手段から出力されたM個の時間周波数成分に対して、角度区間に仮想マイクロフォンを集中配置するビームフォーミング行列を乗じて、隣り合う2個の時間周波数成分の組毎に、2チャネルの複数の音響信号を生成するビームフォーミング手段と、
全ての組における音響信号をチャネル毎に合成して、チャネル毎の音響信号を出力する合成音響信号生成手段と
してコンピュータを機能させることを特徴とするプログラム。 - 収音信号をミキシングする装置のミキシング方法において、
装置は、
M(≧2)個のマイクロフォンそれぞれの収音信号を記憶しており、
ユーザによって選択された、同一収音位置からの任意の角度区間を設定する第1のステップと、
M個の収音信号をそれぞれ、時間周波数成分に変換する第2のステップと、
第2のステップによって変換されたM個の時間周波数成分に対して、角度区間に仮想マイクロフォンを集中配置するビームフォーミング行列を乗じて、隣り合う2個の時間周波数成分の組毎に、2チャネルの複数の音響信号を生成する第3のステップと、
第3のステップによって生成された隣り合う2個の時間周波数成分の組毎に、2チャネルの複数の音響信号を生成する第4のステップと、
全ての組における音響信号をチャネル毎に合成して、チャネル毎の音響信号を出力する第5のステップと
を実行することを特徴とする装置のミキシング方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020025587A JP7217716B2 (ja) | 2020-02-18 | 2020-02-18 | 複数のマイクロフォンの収音信号をミキシングする装置、プログラム及び方法 |
PCT/JP2021/005322 WO2021166808A1 (ja) | 2020-02-18 | 2021-02-12 | 複数のマイクロフォンの収音信号をミキシングする装置、方法及びコンピュータ可読記憶媒体 |
US17/885,825 US12022267B2 (en) | 2020-02-18 | 2022-08-11 | Apparatus, method and computer-readable storage medium for mixing collected sound signals of microphones |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020025587A JP7217716B2 (ja) | 2020-02-18 | 2020-02-18 | 複数のマイクロフォンの収音信号をミキシングする装置、プログラム及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021132261A true JP2021132261A (ja) | 2021-09-09 |
JP7217716B2 JP7217716B2 (ja) | 2023-02-03 |
Family
ID=77391175
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020025587A Active JP7217716B2 (ja) | 2020-02-18 | 2020-02-18 | 複数のマイクロフォンの収音信号をミキシングする装置、プログラム及び方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US12022267B2 (ja) |
JP (1) | JP7217716B2 (ja) |
WO (1) | WO2021166808A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3905127A1 (en) * | 2020-04-28 | 2021-11-03 | Roland Corporation | Image processing program, image processing method and image processing apparatus |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013543987A (ja) * | 2010-10-22 | 2013-12-09 | クゥアルコム・インコーポレイテッド | 遠距離場マルチ音源追跡および分離のためのシステム、方法、装置およびコンピュータ可読媒体 |
JP2017123650A (ja) * | 2016-01-04 | 2017-07-13 | ハーマン ベッカー オートモーティブ システムズ ゲーエムベーハー | 非常に多数のリスナのための音響再生 |
JP2018019294A (ja) * | 2016-07-28 | 2018-02-01 | キヤノン株式会社 | 情報処理システム及びその制御方法、コンピュータプログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3905364B2 (ja) | 2001-11-30 | 2007-04-18 | 株式会社国際電気通信基礎技術研究所 | ステレオ音像制御装置および多対地間通話システムにおける対地側装置 |
JP6841743B2 (ja) | 2017-09-29 | 2021-03-10 | Kddi株式会社 | 音響信号のミキシング装置及びプログラム |
-
2020
- 2020-02-18 JP JP2020025587A patent/JP7217716B2/ja active Active
-
2021
- 2021-02-12 WO PCT/JP2021/005322 patent/WO2021166808A1/ja active Application Filing
-
2022
- 2022-08-11 US US17/885,825 patent/US12022267B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013543987A (ja) * | 2010-10-22 | 2013-12-09 | クゥアルコム・インコーポレイテッド | 遠距離場マルチ音源追跡および分離のためのシステム、方法、装置およびコンピュータ可読媒体 |
JP2017123650A (ja) * | 2016-01-04 | 2017-07-13 | ハーマン ベッカー オートモーティブ システムズ ゲーエムベーハー | 非常に多数のリスナのための音響再生 |
JP2018019294A (ja) * | 2016-07-28 | 2018-02-01 | キヤノン株式会社 | 情報処理システム及びその制御方法、コンピュータプログラム |
Non-Patent Citations (1)
Title |
---|
堀内 俊治, 外2名: "インタラクティブ視聴を実現する音場のズーム合成技術", 映像情報メディア学会誌, [ONLINE], vol. 第73巻, 第1号, JPN6023000247, 2019, pages 167 - 172, ISSN: 0004957575 * |
Also Published As
Publication number | Publication date |
---|---|
JP7217716B2 (ja) | 2023-02-03 |
WO2021166808A1 (ja) | 2021-08-26 |
US20220394382A1 (en) | 2022-12-08 |
US12022267B2 (en) | 2024-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6149818B2 (ja) | 収音再生システム、収音再生装置、収音再生方法、収音再生プログラム、収音システム及び再生システム | |
CN106664501B (zh) | 基于所通知的空间滤波的一致声学场景再现的系统、装置和方法 | |
JP4674505B2 (ja) | 音声信号処理方法、音場再現システム | |
EP2206365B1 (en) | Method and device for improved sound field rendering accuracy within a preferred listening area | |
JP6789690B2 (ja) | 信号処理装置、信号処理方法、及びプログラム | |
US20080219485A1 (en) | Apparatus, System and Method for Acoustic Signals | |
JP2008543143A (ja) | 音響変換器のアセンブリ、システムおよび方法 | |
CA2908435A1 (en) | Audio apparatus | |
JP2019506058A (ja) | 没入型オーディオ再生のための信号合成 | |
JP7378575B2 (ja) | 空間変換領域における音場表現を処理するための装置、方法、またはコンピュータプログラム | |
EP2904817A1 (en) | An apparatus and method for reproducing recorded audio with correct spatial directionality | |
Ogami et al. | Virtual sound source construction based on radiation direction control using multiple parametric array loudspeakers | |
WO2021166808A1 (ja) | 複数のマイクロフォンの収音信号をミキシングする装置、方法及びコンピュータ可読記憶媒体 | |
JP4883197B2 (ja) | 音声信号処理方法、音場再現システム | |
JP6955186B2 (ja) | 音響信号処理装置、音響信号処理方法および音響信号処理プログラム | |
JP2019068210A (ja) | 音響信号のミキシング装置及びプログラム | |
JP6970366B2 (ja) | 音像再現装置、音像再現方法及び音像再現プログラム | |
WO2018100232A1 (en) | Distributed audio capture and mixing | |
JP2018191127A (ja) | 信号生成装置、信号生成方法およびプログラム | |
US20230276189A1 (en) | Real-time sound field synthesis by modifying produced audio streams | |
Valente et al. | Comparing perceived auditory width to the visual image of a performing ensemble in contrasting bi-modal environments | |
Albrecht et al. | An approach for multichannel recording and reproduction of sound source directivity | |
JP2004180197A (ja) | 情報処理装置、情報処理方法および記録媒体 | |
JP6274244B2 (ja) | 収音再生装置、収音再生プログラム、収音装置及び再生装置 | |
US11638114B2 (en) | Method, system and computer program product for recording and interpolation of ambisonic sound fields |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220118 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230106 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230124 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7217716 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |