JP2021132261A

JP2021132261A - 複数のマイクロフォンの収音信号をミキシングする装置、プログラム及び方法

Info

Publication number: JP2021132261A
Application number: JP2020025587A
Authority: JP
Inventors: 俊治堀内; Toshiharu Horiuchi
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2020-02-18
Filing date: 2020-02-18
Publication date: 2021-09-09
Anticipated expiration: 2040-02-18
Also published as: JP7217716B2; WO2021166808A1; US20220394382A1; US12022267B2

Abstract

【課題】視覚的な映像範囲と聴覚的な音場範囲とに乖離を感じないよう、複数のマイクロフォンの収音信号をミキシングする装置等を提供する。【解決手段】Ｍ（≧２）個のマイクロフォンそれぞれの収音信号を記憶する収音信号記憶手段と、ユーザによって選択された、同一収音位置からの任意の角度区間を設定する角度区間設定手段と、Ｍ個の収音信号をそれぞれ、時間周波数成分に変換する周波数分析手段と、周波数分析手段によって変換されたＭ個の時間周波数成分に対して、角度区間に仮想マイクロフォンを集中配置するビームフォーミング行列を乗じて、隣り合う２個の時間周波数成分の組毎に、２チャネルの複数の音響信号を生成するビームフォーミング手段と、全ての組における音響信号をチャネル毎に合成して、チャネル毎の音響信号を出力する合成音響信号生成手段とを有する。【選択図】図３

Description

本発明は、複数のマイクロフォンにおける収音信号をミキシング(mixing)する技術に関する。

近年、ＶＲ(Virtual Reality)やＡＲ(Augmented Reality)の技術の進展によって、ユーザに対するインタラクティブ視聴が注目されてきている。例えば全方位的（３６０度）な動画を再生する際に、ユーザ自らが、視野の画角（３６０度内における角度区間）を選択的に指定して、その画角の動画をディスプレイに表示することができる。
また、全方位的な動画を再生しつつ、３６０度全ての方向から収音した音響を再生する。この再生には、音場の全方位的合成を目的として、アンビソニックス方式、バイノーラル方式又はサラウンド方式が一般的に用いられる。

図１は、従来技術における円状マイクロフォンアレイの指向性を表す説明図である。

円状マイクロフォンアレイは、複数の指向性マイクロフォンを仮想的に３次元方向に向けて収音する。指向性マイクロフォン毎に、異なる角度を設定し、異なる方向から到来する音響を収音することができる。
図１によれば、例えば楽曲の演奏者が円周状に位置する場合、その中心に、円状マイクロフォンアレイを配置している。そのために、できる限り演奏者毎に指向性を向けて収音することができる。

従来、複数のマイクロフォンによって収音された音響信号を、ミキシングする技術がある。
例えば、２つのマイクロフォンによって収音した音響信号に対して、音場範囲の幅を調整（広げたり又は狭めたり）することができるステレオ幅制御の技術がある（例えば特許文献１参照）。この技術は、２つのマイクロフォンの収音信号から、音場の伸縮率に基づいて、右チャネルと左チャネルの２つの音響信号を生成する。チャネル毎の音響信号を、１組のステレオスピーカで駆動することによって、ユーザにとって音場範囲が調整されて聞こえる。

また、３つ以上のマイクロフォンについても、ステレオ幅を制御すると共に、時間周波数マスキングを制御する技術もある（例えば特許文献２参照）。この技術によれば、予め配置された３つ以上のマイクロフォンによって収音した音響信号から、音場を選択的に合成することができる。

特許第３９０５３６４号公報特開２０１９−０６８２１０号公報

電子情報通信学会「知識の森」、2群（画像・音・言語）−6編（音響信号処理）−2章（音源分離）、[online]、［令和２年２月１５日検索］、インターネット＜URL:http://www.ieice-hbkb.org/files/02/02gun_06hen_02.pdf＞ ZYLIA ZM-1 microphone（マルチトラック・レコーティングマイクロフォン・アレイ）、[online]、［令和２年２月１６日検索］、インターネット＜URL:https://www.minet.jp/brand/zylia/zylia-music-set/＞ Insta360 Pro2、[online]、［令和２年２月１６日検索］、インターネット＜https://hacosco.com/insta360-pro2/＞

複数のマイクロフォンそれぞれの収音信号をそのままミキシングした場合、スピーカから聞くユーザに向けて、各収音信号を同じレベルとして出力される。人の聴覚は全方位的であるために、収音信号を単に合成するに過ぎなかった。
この場合、例えばユーザがバイオリン演奏者を見ている場合であっても、そのバイオリンの収音信号は、他の楽器の収音信号と同じレベルとして聞こえてしまう。そのために、ユーザは、見ている映像範囲と、音場範囲とに、乖離を感じることとなっていた。

また、特許文献２に記載の技術によれば、３つ以上のマイクロフォンは所定位置に予め配置されることを想定したものである。そのめに、調整すべき音場範囲が狭い場合には、有効なマイクロフォンの数が少なくなり、音像の定位精度が低下することとなっていた。

そこで、本発明は、ユーザにとって視覚的な映像範囲と聴覚的な音場範囲とに乖離を感じないように、複数のマイクロフォンの収音信号をミキシングする装置、プログラム及び方法を提供することを目的とする。

本発明によれば、収音信号をミキシングする装置において、
Ｍ（≧２）個のマイクロフォンそれぞれの収音信号を記憶する収音信号記憶手段と、
ユーザによって選択された、同一収音位置からの任意の角度区間を設定する角度区間設定手段と、
Ｍ個の収音信号をそれぞれ、時間周波数成分に変換する周波数分析手段と、
周波数分析手段によって変換されたＭ個の時間周波数成分に対して、角度区間に仮想マイクロフォンを集中配置するビームフォーミング行列を乗じて、隣り合う２個の時間周波数成分の組毎に、２チャネルの複数の音響信号を生成するビームフォーミング手段と、
全ての組における音響信号をチャネル毎に合成して、チャネル毎の音響信号を出力する合成音響信号生成手段と
を有することを特徴とする。

本発明の装置における他の実施形態によれば、
Ｍ個の収音信号を録音すると同時に、収音信号全体の音場範囲を撮影した音場映像を記憶する音場映像記憶手段と、
音場映像記憶手段に記憶された映像を視覚的に再生するディスプレイと、
合成音響信号生成手段から出力された音響信号を再生するチャネル毎のスピーカと
を更に有することも好ましい。

本発明の装置における他の実施形態によれば、
ディスプレイは、タッチパネルデバイス又はポインティングデバイスに対するユーザ操作に応じて、当該映像を拡大又は縮小可能なものであり、
角度区間設定手段は、ディスプレイに表示された当該映像における当該マイクロフォンから見た角度区間に設定する
ことも好ましい。

本発明の装置における他の実施形態によれば、
複数のマイクロフォンは、同一収音位置に配置されたものであり、
収音信号は、全方位に向けて配置された、各マイクロフォンによって録音されたものであり、
映像は、全方位を撮影可能なカメラによって録画されたものである
ことも好ましい。

本発明の装置における他の実施形態によれば、
ディスプレイに表示される映像は、全方位を撮影した映像を、当該ディスプレイの水平方向へ並んで展開したものとなり、
ビームフォーミング手段から出力された各時間周波数成分に基づくマイクロフォンの位置は、当該ディスプレイの水平方向へ並んで展開したものとなり、
角度区間は、ディスプレイに表示された映像の水平方向の表示区間に応じたものとなり、
隣り合う２個の時間周波数成分の組は、ディスプレイに表示された映像の水平方向に隣り合うマイクロフォンの収音信号に基づくものである
ことも好ましい。

本発明の装置における他の実施形態によれば、
ビームフォーミング手段と共に、隣り合う２個の時間周波数成分の組毎に、仮想マイクロフォン間の音場の拡縮率となるスケーリング行列（拡縮係数）を乗ずるスケーリング手段を更に有し、
スケーリング行列は、ディスプレイに映る映像の表示範囲と、ビームフォーミングに基づく仮想マイクロフォンの配置間隔とから決定される
ことも好ましい。

本発明の装置における他の実施形態によれば、
ビームフォーミング手段と共に、隣り合う２個の時間周波数成分の組毎に、仮想マイクロフォン間の左右移動のシフト量となるシフト行列（シフト係数）を乗ずるシフト手段を更に有し、
シフト行列は、ディスプレイに映る映像の表示範囲と、ビームフォーミングに基づく仮想マイクロフォンの配置間隔とから決定される
ことも好ましい。

本発明の装置における他の実施形態によれば、
ビームフォーミング手段と共に、隣り合う２個の時間周波数成分の組毎に、仮想マイクロフォン間の音場の減衰量となるマスキング行列（減衰係数）を乗ずるマスキング手段を更に有し、
マスキング行列は、ディスプレイに映る映像の表示範囲と、ビームフォーミングに基づく仮想マイクロフォンの配置間隔とから決定される
ことも好ましい。

本発明によれば、収音信号をミキシングする装置に搭載されたコンピュータを機能させるプログラムにおいて、
Ｍ（≧２）個のマイクロフォンそれぞれの収音信号を記憶する収音信号記憶手段と、
ユーザによって選択された、同一収音位置からの任意の角度区間を設定する角度区間設定手段と、
Ｍ個の収音信号をそれぞれ、時間周波数成分に変換する周波数分析手段と、
周波数分析手段から出力されたＭ個の時間周波数成分に対して、角度区間に仮想マイクロフォンを集中配置するビームフォーミング行列を乗じて、隣り合う２個の時間周波数成分の組毎に、２チャネルの複数の音響信号を生成するビームフォーミング手段と、
全ての組における音響信号をチャネル毎に合成して、チャネル毎の音響信号を出力する合成音響信号生成手段と
してコンピュータを機能させることを特徴とする。

本発明によれば、収音信号をミキシングする装置のミキシング方法において、
装置は、
Ｍ（≧２）個のマイクロフォンそれぞれの収音信号を記憶しており、
ユーザによって選択された、同一収音位置からの任意の角度区間を設定する第１のステップと、
Ｍ個の収音信号をそれぞれ、時間周波数成分に変換する第２のステップと、
第２のステップによって変換されたＭ個の時間周波数成分に対して、角度区間に仮想マイクロフォンを集中配置するビームフォーミング行列を乗じて、隣り合う２個の時間周波数成分の組毎に、２チャネルの複数の音響信号を生成する第３のステップと、
第３のステップによって生成された隣り合う２個の時間周波数成分の組毎に、２チャネルの複数の音響信号を生成する第４のステップと、
全ての組における音響信号をチャネル毎に合成して、チャネル毎の音響信号を出力する第５のステップと
を実行することを特徴とする。

本発明の装置、プログラム及び方法によれば、ユーザにとって視覚的な映像範囲と聴覚的な音場範囲とに乖離を感じないように、複数のマイクロフォンの収音信号をミキシングすることができる。

従来技術における円状マイクロフォンアレイの指向性を表す説明図である。本発明のメディア再生装置及び収音録画装置からなるシステム構成図である。本発明におけるメディア再生装置の機能構成図である。ユーザの視聴範囲とマイクロフォンの収音方向との位置関係を表す説明図である。音場の映像範囲と仮想マイクロフォンの位置との関係を表す説明図である。入力音響信号とステレオ音響信号との関係を表す第１の模式図である。入力音響信号とステレオ音響信号との関係を表す第２の模式図である。仮想マイクロフォンと音源との位置関係を表す説明図である。マイクロフォン同士の組を表す説明図である。

以下、本発明の実施の形態について、図面を用いて詳細に説明する。

図２は、本発明のメディア再生装置及び収音録画装置からなるシステム構成図である。

＜収音録画装置２＞
収音録画装置２は、球状マイクロフォンアレイ２１と、全方位型カメラ２２とから構成されている。

［球状マイクロフォンアレイ２１］
球状マイクロフォンアレイ２１は、複数（Ｍ個）のマイクロフォンを幾何学的に並べて、異なる方向からの収音を可能とする（例えば非特許文献２参照）。幾何学的とは、複数のマイクロフォンを等間隔に並べることに限られない。
また、球状マイクロフォンアレイ２１に搭載される複数のマイクロフォンは、無指向性のものであってもよいし、指向性を持つものであってもよい。

図２によれば、球状マイクロフォンアレイ２１は、各マイクロフォンを球表面に配置し、全方位から収音する。勿論、必ずしも球状である必要はなく、３次元的に立体配置されたものであってもよいし、２次元的に平面配置されたものであってもよい。
また、複数のマイクロフォンは、球表面上又は円周上に配置されることなく、例えば直線上、任意の曲線状、地理的な任意の位置上に配置されるものであってもよい。

［全方位型カメラ２２］
全方位型カメラ２２は、複数のカメラそれぞれ異なる方向を撮影し、複数の撮影映像を合成した３６０度映像を生成する（例えば非特許文献３参照）。３６０度映像は、音場範囲を撮影した音場映像である。全方位型カメラ２２は、球状マイクロフォンアレイ２１の収音と同期して撮影する。

収音録画装置２は、球状マイクロフォンアレイ２１によるマイクロフォン毎の収音信号と、全方位型カメラ２２による音場映像とを、メディア再生装置１へ送信する。

＜メディア再生装置１＞
メディア再生装置１は、収音録画装置２から、各マイクロフォンの収音信号と、３６０度映像とを受信する。
メディア再生装置１は、ユーザが操作可能な端末であって、例えばスマートフォンやタブレット端末のように、少なくともディスプレイ及びスピーカを搭載したものである。

図３は、本発明におけるメディア再生装置の機能構成図である。

図３によれば、メディア再生装置１は、収音信号記憶部１０１と、音場映像記憶部１０２と、ディスプレイ１０３と、スピーカ１０４とを有する。

収音信号記憶部１０１は、収音録画装置１から、複数のマイクロフォンそれぞれの収音信号を受信して記憶する。図２によれば、各収音信号は、同一位置から３次元方向に立体配置されたＭ（≧２）個のマイクロフォンそれぞれのものである。また、収音信号毎に、同一位置における角度位置も予め記憶している。

音場映像記憶部１０２は、収音録画装置１から、音場範囲を撮影した音場映像を受信して記憶する。

ディスプレイ１０３は、音場映像記憶部１０２に記憶された映像を視覚的に再生するものである。例えばスマートフォンやタブレットのディスプレイであってもよいし、ＶＲのヘッドマウントディスプレイであってもよい。
ディスプレイ１０３は、タッチパネルデバイス又はポインティングデバイスによってユーザ操作可能なものであって、表示される視覚範囲の映像に対して、表示位置の変更、及び、表示範囲の拡大又は縮小が可能なものである。

スピーカ１０４は、最終的にミキシングされた音響信号を再生する。ステレオの場合、左チャネル用のスピーカと右チャネル用のスピーカとからそれぞれ、合成された音響信号が出力される。

また、メディア再生装置１は、角度区間設定部１１と、周波数分析部１２と、ビームフォーミング部１３０と、合成音響信号生成部１４とを有する。これら機能構成部は、メディア再生装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。また、これら機能構成部の処理の流れは、メディア再生方法としても理解できる。

［角度区間設定部１１］
角度区間設定部１１は、ユーザによって選択された、同一収音位置からの任意の角度区間（角周波数ω）を設定する。設定された角度区間は、ビームフォーミング部１３０へ出力される。
また、角度区間設定部１１は、複数のマイクロフォンそれぞれの配置位置の情報を保持する。これによって、配置位置が隣り合うマイクロフォン同士を１つの組として分類する。

図４は、ユーザの視聴範囲とマイクロフォンの収音方向との位置関係を表す説明図である。

図４（ａ）によれば、角度区間設定部１１は、ディスプレイ１０３に表示された映像から、収音録画装置２（複数のマイクロフォン）から見た角度区間を取得する。球状マイクロフォンアレイとして複数のマイクロフォンが球表面上に配置された場合、角度区間が取得される。ユーザは、ディスプレイ１０３に表示される映像の視聴範囲を、自らの操作によって設定することができる。即ち、角度範囲の設定とは、ディスプレイ１０３に表示される中心位置及びその視聴範囲（視野の角度区間）を設定することとなる。

また、角度区間は、複数のマイクロフォンが配置された直線又は曲線に沿った区間であってもよい。円周や曲線であっても、複数のマイクロフォンの位置を直線上に並べて、その区間を設定することができる。

図４（ａ）によれば、配置位置が隣り合うマイクロフォン同士を１つの組として、６個の組が構成されている。このように、円周の閉じた角度区間に複数のマイクロフォンを配置する場合、Ｎ個のマイクロフォンに対して、Ｎ個の組が設定される。一方、直線状に複数のマイクロフォンを配置する等、閉じていない直線上又は曲線状に複数のマイクロフォンを配置する場合には、Ｎ個のマイクロフォンに対して、Ｎ−１個の組が設定される。但し、閉じた角度区間に複数のマイクロフォンを配置する場合であっても、その一部の角度区間にのみマイクロフォンを配置する場合には、Ｎ個のマイクロフォンに対して、Ｎ−１個の組が設定される。

［周波数分析部１２］
周波数分析部１２は、Ｍ個の収音信号をそれぞれ、時間区間毎に離散フーリエ変換を実行し、時間周波数成分ｘ(ω)に変換する。時間周波数成分はそれぞれ、入力音響信号（ｘ(ω)＝(ｘ₁,ｘ₂,・・・,ｘ_M)^Ｔ）として、ビームフォーミング部１３０へ出力される。

［ビームフォーミング部１３０］
ビームフォーミング部１３０は、周波数分析部１２によって変換されたＭ個の入力音響信号（ｘ(ω)＝(ｘ₁,ｘ₂,・・・,ｘ_M)^Ｔ）に対して、角度区間に仮想マイクロフォンを集中配置するビームフォーミング行列を乗ずる。そして、隣り合う２個の入力音響信号（時間周波数成分）の組毎に、２チャネルの複数の音響信号を生成する。

「ビームフォーミング」とは、マイクロフォンアレイを用いて指向性を制御する信号処理をいう（例えば非特許文献１参照）。音源からマイクロフォンへの音波伝搬がそれぞれ異なることに基づいて、遅延及びフィルタにより位相や振幅を制御した信号同士を干渉させて、特定方向からの信号を強調又は低減する。
本発明によれば、「固定ビームフォーミング」を適用する。その中でも、フィルタによって周波数と指向性との関係を変化させる「フィルタアンドサムビームフォーマ（Filter-and-Sum Beamformer）」を適用する。

ｙ(ω)＝Σ_n=1 ^ＮＢ_n(ω,n)・ｘ(ω)
ｘ(ω)＝(ｘ₁,ｘ₂,・・・,ｘ_M)^Ｔ：マイクロフォン毎の入力音響信号
ｙ(ω) ＝(ｙ_L,ｙ_R)^Ｔ：合成した２チャネルのステレオ音響信号
Ｂ(ω)：視聴範囲に複数の仮想マイクロフォンを集中配置する
ビームフォーミング行列
Ｂ_n(ω,n)：仮想マイクロフォン毎のビームフォーミング行列
Ｎ：Ｍ個の入力信号ｘ(ω)の中で隣り合う仮想マイクロフォンペア数
n：仮想マイクロフォンペア毎

図４（ｂ）によれば、視聴範囲に対して、仮想マイクロフォン毎の音場範囲の幅が制御されている。ここで、各仮想マイクロフォンの収音方向（ビーム方向）は、視聴範囲に集中配置される。例えば、１個の仮想マイクロフォンの組のみの収音方向を、視聴範囲外へ向けて、Ｎ−１個の仮想マイクロフォンの組の収音方向を、視聴範囲内へ等角度に向けるものであってもよい。勿論、視聴範囲外へ向ける仮想マイクロフォンの組を、１個とすることなく、任意の個数とするものであってもよい。

図５は、音場の映像範囲と仮想マイクロフォンの位置との関係を表す説明図である。

図５によれば、収音録画装置２によって全方位を撮影した３６０度映像を、水平方向の平面状に並べて展開している。メディア再生装置１のディスプレイ１０３に表示される視聴範囲は、平面状の３６０度映像の一部（角度区間）となる。即ち、角度区間は、ディスプレイ１０３に表示された映像の水平方向の表示区間に対応する。
また、隣り合う２個の入力音響信号の組は、ディスプレイ１０３に表示された映像の水平方向に隣り合うマイクロフォンの収音信号に基づくものとなる。

図５（ａ）によれば、図４（ａ）に対応して、マイクロフォンの位置が表されている。マイクロフォンが等角度に配置されている場合、仮想マイクロフォン同士の位置の幅も等しくなる。
図５（ｂ）によれば、図４（ｂ）に対応して、仮想マイクロフォンの位置が表されている。ここでは、複数の仮想マイクロフォンの収音方向が、視聴範囲に集中配置される。

［合成音響信号生成部１４］
合成音響信号生成部１４は、全ての組における音響信号をチャネル毎に合成して、チャネル毎の音響信号を出力する。チャネル毎の音響信号は、１組のスピーカへ出力される。
ｙ(ω)＝Σ_n=1 ^ＮＢ_n(ω,n)・ｘ(ω)

図６は、入力音響信号とステレオ音響信号との関係を表す第１の模式図である。

図６によれば、複数のマイクロフォンそれぞれからの入力音響信号ｘ(ω)は、各ビームフォーミング部１３０によって離散逆フーリエ変換され、右チャネルの音響信号と左チャネルの音響信号とが出力される。そして、各ビームフォーミング部１３０から出力された音響信号は、チャネル毎に加算される。

＜他の実施形態＞
前述した実施形態によれば、ビームフォーミングに注目して説明した。これに対しビームフォーミング部１３０と共に、スケーリング部１３１と、シフト部１３２と、マスキング部１３３とを更に備えることも好ましい。これら機能構成部については、特許文献２にも詳述されたものである。

［スケーリング部１３１］
スケーリング部１３１は、ビームフォーミング部１３０と共に、隣り合う２個の時間周波数成分の組毎に、仮想マイクロフォン間の音場の拡縮率となるスケーリング行列（拡縮係数）を乗ずるものである。
スケーリング行列は、ディスプレイ１０３に映る映像の表示範囲と、ビームフォーミングに基づく仮想マイクロフォンの配置間隔とから決定される。

Ｋ_n(ω,κn)：ステレオ幅の拡大又は縮小するスケーリング行列
κ_n：音場範囲を制御するスケーリング（拡縮）係数（０〜２）
κ_n＝１：変更なし、κ_n＜１：縮小、κ_n＞１：拡大
φ(ω)：２つの音響信号の偏角の主値（−π＜Φ（ω）≦πとする整数）

例えばユーザが、ディスプレイ１０３に表示される映像の中央を拡大するように操作した場合、中央付近に更なる仮想マイクロフォンを集中させ、中央のκ_nを大きく、左及び右のκ_nを小さくする。

［シフト部１３２］
シフト部１３２は、ビームフォーミング部１３０と共に、隣り合う２個の時間周波数成分の組毎に、仮想マイクロフォン間の左右移動のシフト量となるシフト行列（シフト係数）を乗ずるものである。
シフト行列は、ディスプレイ１０３に映る映像の表示範囲と、ビームフォーミングに基づく仮想マイクロフォンの配置間隔とから決定される。

Ｔ_n(ω,τ_n)：左右に移動させるシフト行列
τ_n：シフト量（-ｃ≦τ_n≦ｃ、ｃ：時間定数）
τ_n＜０（負値）：左移動、τ_n＞０（正値）：右移動

例えばユーザが、ディスプレイ１０３に表示される映像の中央を拡大するように操作した場合、中央付近に更なる仮想マイクロフォンを集中させ、中央のκnを変更せず、左側のτ_nは左移動のために負値に、右側のτ_nは右移動のために正値とする。

［マスキング部１３３］
ビームフォーミング部１３０と共に、隣り合う２個の時間周波数成分の組毎に、仮想マイクロフォン間の音場の減衰量となるマスキング行列（減衰係数）を乗ずるものである。
マスキング行列は、ディスプレイ１０３に映る映像の表示範囲と、ビームフォーミングに基づく仮想マイクロフォンの配置間隔とから決定される。
Ｍ_n(ω,ｍ_n(ω))＝diag(ｍ_n(ω),ｍ_n+1(ω))
Ｍ_n(ω,ｍ_n(ω))：複数チャネル間の音場の選択的合成を実現するマスキング行列
ｍ_n(ω)：マスキング減衰係数（０〜１）
ｍ_n(ω)＝１：通過、ｍ_n(ω)＜１：抑圧、ｍ_n(ω)＝０：不通過
マスキング減衰係数は、音場の選択的合成とマイクロフォンの指向性パターンを考慮して、距離減衰の効果を与える。

前述したように、ビームフォーミング部１３０に加えて、スケーリング部１３１、シフト部１３２及びマスキング部１３３を考慮すると、合成音響信号生成部１４は、以下のようなステレオ音響信号を生成する。
ｙ(ω)＝Σ_n=1 ^ＮＭ_n(ω,ｍ_n(ω))Ｔn(ω,τ_n)Ｋ(ω,κ_n)Ｂ_n(ω,n)・ｘ(ω)

図７は、入力音響信号とステレオ音響信号との関係を表す第２の模式図である。

図７によれば、複数のマイクロフォンそれぞれからの入力音響信号ｘ(ω)は、各ビームフォーミング部１３０、スケーリング部１３１、シフト部１３２及びマスキング部１３３によって離散逆フーリエ変換され、右チャネルの音響信号と左チャネルの音響信号とが出力される。そして、最終段のマスキング部１３３から出力された音響信号は、チャネル毎に加算される。

図８は、仮想マイクロフォンと音源との位置関係を表す説明図である。

図８によれば、仮想マイクロフォンＡ及びＢの間に、音源Ｃ及びＤが位置する場合を表す。
仮想マイクロフォンＡの入力音響信号Ａ
仮想マイクロフォンＢの入力音響信号Ｂ
左チャネルの出力音響信号Ｌ
右チャネルの出力音響信号Ｒ

図８（ａ）によれば、以下のように設定されているとする。
マスキング減衰係数：ｍ₁＝１、ｍ₂＝１
シフト量：τ＝０
スケーリング係数：κ＝１
この場合、行列Ｍ及びＴについては、入力音響信号Ａ及びＢを何ら変化させることがなく、以下のような出力音響信号となる。
出力音響信号Ｒ＝入力音響信号Ａ
出力音響信号Ｌ＝入力音響信号Ｂ
そのために、仮想マイクロフォンＡ及びＢの位置にスピーカを置いて音響信号Ｒ及びＬでそれぞれを駆動すると、マイクロフォンＡ及びＢが配置されている方向における音場範囲は、マイクロフォンＡ及びＢの収音範囲と同等になる。
図８（ａ）における音源Ｃ及びＤの位置では、中央破線の位置は、マイクロフォンＡとＢとの中間位置である。この場合、出力音響信号となる音源Ｃ及び音源Ｄの音像の位置は、音源Ｃ及び音源Ｄの配置位置と同じ位置となる。

図８（ｂ）によれば、以下のように設定されているとする。
マスキング減衰係数：ｍ₁＝１、ｍ₂＝１
シフト量：τ＝０
ここで、スケーリング係数κ＜１の音場範囲は、κ＝１の音場範囲よりも短くなる。このとき、マイクロフォンＡ及びＢの位置に配置したスピーカから出力音響信号Ｒ及び音響信号Ｌで駆動すると、音源Ｃの音像の位置は、音源Ｃの配置位置と同じ中央破線になる。しかしながら、音源Ｄの音像の位置は、音源Ｄの配置位置より中央破線に近づくようになる。
逆に、スケーリング係数κ＞１の音場範囲は、κ＝１の音場範囲よりも長くなる。

図８（ａ）（ｂ）のように、τ＝０のとき、行列Ｔは、入力音響信号Ａ及びＢに何ら影響を与えない。一方で、τ≠０のとき、行列Ｔは、入力音響信号Ａ及びＢにそれぞれ同じ絶対値で異なる符号の位相変化を与える。そのために、音像の位置がτの値に応じてマイクロフォンＡ又はＢの方向にシフトする。尚、シフトの方向は、τの正負に応じて決定され、τの絶対値が大きくなるほど、そのシフト量は大きくなる。

図８（ｃ）によれば、図８（ｂ）の音場範囲となるκとした上で、τ≠０に設定したときの音場範囲を表している。音源Ｃ及びＤの音像の位置は、図８（ｂ）よりも左側にシフトしている。

尚、図８については、説明のためにスピーカをマイクロフォンＡ及びＢの位置に置くものとしたが、ＲチャネルとＬチャネルの２つのスピーカを設置する距離は任意の距離とすることができる。この場合、音場範囲はスピーカの配置距離に応じたものにもなる。

図９は、マイクロフォン同士の組を表す説明図である。

最初に、視聴範囲の角度区間内に少なくとも１つのマイクロフォンが含まれるか否かを判定する。
図９（ａ）によれば、角度区間内に少なくとも１つのマイクロフォンが含まれる場合を表す。
第１組：両方のマイクロフォンが角度区間に含まれる組
第２組：両方のマイクロフォンが共に角度区間に含まれない組
第３組：一方のマイクロフォンが角度区間に含まれ、他方のマイクロフォンが角度
区間に含まれない組
Ｌ１：一方のマイクロフォンの位置から角度区間境界までの重複区間
Ｌ２：他方のマイクロフォンの位置から角度区間境界までの非重複区間

図９（ｂ）によれば、マイクロフォンが１つも角度区間内に含まれない場合である。この場合、以下のようにする。
第３組：角度区間に最も近い２つのマイクロフォンの組
両方のマイクロフォンの位置から角度区間境界までの２つの非重複区間
第２組：上記の第３組以外のマイクロフォンの組

第１組について、例えばτ＝０、κ＝１、ｍ_A＝０、ｍ_B＝０とする。即ち、音場の拡縮、シフト、減衰をさせないとする。
一方で、第３組について、κ及びτは、音場範囲が重複区間に応じたものとなるように設定する。即ち、第３組のスケーリング係数κを、重複区間の長さＬ１に基づいて設定する。具体的には、第３組の２つのマイクロフォン間の距離Ｌとして、Ｌ１／Ｌの拡縮率となるように、当該第３組に対するスケーリング係数κを決定する。これによって、第３組の重複区間の長さが短くなるほど、音場範囲を短くするように当該第３組のスケーリング係数κを決定する。
また、重複区間の中心位置に音場の中心位置がくるように第３組のシフト係数τを設定する。そのために、２つのマイクロフォンの配置位置の中心と重複区間の中心との距離に応じて第３組のシフト係数を決定する。
更に、第３組の２つのマイクロフォンの減衰係数について、ｍ_A＝１及びｍ_B＝１に設定する。又は、第３組について、角度区間に含まれるマイクロフォンの減衰係数を、第１組の２つのマイクロフォンの減衰係数と同じ値に設定する。これによって、角度区間に含まれないマイクロフォンの減衰係数については、角度区間に含まれるマイクロフォンの減衰量より大きい減衰量となるように設定する。又は、第３組の角度区間に含まれないマイクロフォンの減衰係数については、非重複区間の長さ、即ち、マイクの配置位置から視聴範囲の角度区間までの最短距離Ｌ２が大きくなるほど、減衰量が大きくなるように設定する。

第２組については、第１組と同様に、例えばτ＝０、κ＝１とする。ここで、２つのマイクロフォンの減衰係数については、第１組及び第３組のマイクに対して設定した減衰係数より減衰量が大きくなる値に設定する。例えば第２組の２つのマイクロフォンの減衰係数を減衰量が最大となる値、即ち、０に設定するか、又は、０に近い所定の値に設定する。

図９（ｃ）によれば、以下のような組となる。
第３組：マイクロフォンＡ及びＢの組
第３組：マイクロフォンＡ及びＣの組
第２組：その他の組は
ここで、第２組のマイクロフォンに対する減衰量は大きいため、これらの組の音響信号は、出力音響信号Ｒ及びＬには殆ど含まれなくなる。

以上、詳細に説明したように、本発明の装置、プログラム及び方法によれば、ユーザにとって視覚的な映像範囲と聴覚的な音場範囲とに乖離を感じないように、複数のマイクロフォンの収音信号をミキシングすることができる。
本発明によれば、ユーザにとって、音像の高い定位精度を持つ３６０度動画のインタラクティブ視聴を提供することができる。

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。

１メディア再生装置
１０１収音信号記憶部
１０２音場映像記憶部
１０３ディスプレイ
１０４スピーカ
１１角度区間設定部
１２周波数分析部
１３０ビームフォーミング部
１３１スケーリング部
１３２シフト部
１３３マスキング部
１４合成音響信号生成部
２収音録画装置
２１球状マイクロフォンアレイ
２２全方位型カメラ

Claims

収音信号をミキシングする装置において、
Ｍ（≧２）個のマイクロフォンそれぞれの収音信号を記憶する収音信号記憶手段と、
ユーザによって選択された、同一収音位置からの任意の角度区間を設定する角度区間設定手段と、
Ｍ個の収音信号をそれぞれ、時間周波数成分に変換する周波数分析手段と、
周波数分析手段によって変換されたＭ個の時間周波数成分に対して、角度区間に仮想マイクロフォンを集中配置するビームフォーミング行列を乗じて、隣り合う２個の時間周波数成分の組毎に、２チャネルの複数の音響信号を生成するビームフォーミング手段と、
全ての組における音響信号をチャネル毎に合成して、チャネル毎の音響信号を出力する合成音響信号生成手段と
を有することを特徴とする装置。
Ｍ個の収音信号を録音すると同時に、収音信号全体の音場範囲を撮影した音場映像を記憶する音場映像記憶手段と、
音場映像記憶手段に記憶された映像を視覚的に再生するディスプレイと、
合成音響信号生成手段から出力された音響信号を再生するチャネル毎のスピーカと
を更に有することを特徴とする請求項１に記載の装置。
ディスプレイは、タッチパネルデバイス又はポインティングデバイスに対するユーザ操作に応じて、当該映像を拡大又は縮小可能なものであり、
角度区間設定手段は、ディスプレイに表示された当該映像における当該マイクロフォンから見た角度区間に設定する
ことを特徴とする請求項２に記載の装置。
複数のマイクロフォンは、同一収音位置に配置されたものであり、
収音信号は、全方位に向けて配置された、各マイクロフォンによって録音されたものであり、
映像は、全方位を撮影可能なカメラによって録画されたものである
ことを特徴とする請求項３に記載の装置。
ディスプレイに表示される映像は、全方位を撮影した映像を、当該ディスプレイの水平方向へ並んで展開したものとなり、
ビームフォーミング手段から出力された各時間周波数成分に基づくマイクロフォンの位置は、当該ディスプレイの水平方向へ並んで展開したものとなり、
角度区間は、ディスプレイに表示された映像の水平方向の表示区間に応じたものとなり、
隣り合う２個の時間周波数成分の組は、ディスプレイに表示された映像の水平方向に隣り合うマイクロフォンの収音信号に基づくものである
ことを特徴とする請求項４に記載の装置。
ビームフォーミング手段と共に、隣り合う２個の時間周波数成分の組毎に、仮想マイクロフォン間の音場の拡縮率となるスケーリング行列（拡縮係数）を乗ずるスケーリング手段を更に有し、
スケーリング行列は、ディスプレイに映る映像の表示範囲と、ビームフォーミングに基づく仮想マイクロフォンの配置間隔とから決定される
ことを特徴とする請求項１から５のいずれか１項に記載の装置。
ビームフォーミング手段と共に、隣り合う２個の時間周波数成分の組毎に、仮想マイクロフォン間の左右移動のシフト量となるシフト行列（シフト係数）を乗ずるシフト手段を更に有し、
シフト行列は、ディスプレイに映る映像の表示範囲と、ビームフォーミングに基づく仮想マイクロフォンの配置間隔とから決定される
ことを特徴とする請求項１から６のいずれか１項に記載の装置。
ビームフォーミング手段と共に、隣り合う２個の時間周波数成分の組毎に、仮想マイクロフォン間の音場の減衰量となるマスキング行列（減衰係数）を乗ずるマスキング手段を更に有し、
マスキング行列は、ディスプレイに映る映像の表示範囲と、ビームフォーミングに基づく仮想マイクロフォンの配置間隔とから決定される
ことを特徴とする請求項１から７のいずれか１項に記載の装置。
収音信号をミキシングする装置に搭載されたコンピュータを機能させるプログラムにおいて、
Ｍ（≧２）個のマイクロフォンそれぞれの収音信号を記憶する収音信号記憶手段と、
ユーザによって選択された、同一収音位置からの任意の角度区間を設定する角度区間設定手段と、
Ｍ個の収音信号をそれぞれ、時間周波数成分に変換する周波数分析手段と、
周波数分析手段から出力されたＭ個の時間周波数成分に対して、角度区間に仮想マイクロフォンを集中配置するビームフォーミング行列を乗じて、隣り合う２個の時間周波数成分の組毎に、２チャネルの複数の音響信号を生成するビームフォーミング手段と、
全ての組における音響信号をチャネル毎に合成して、チャネル毎の音響信号を出力する合成音響信号生成手段と
してコンピュータを機能させることを特徴とするプログラム。
収音信号をミキシングする装置のミキシング方法において、
装置は、
Ｍ（≧２）個のマイクロフォンそれぞれの収音信号を記憶しており、
ユーザによって選択された、同一収音位置からの任意の角度区間を設定する第１のステップと、
Ｍ個の収音信号をそれぞれ、時間周波数成分に変換する第２のステップと、
第２のステップによって変換されたＭ個の時間周波数成分に対して、角度区間に仮想マイクロフォンを集中配置するビームフォーミング行列を乗じて、隣り合う２個の時間周波数成分の組毎に、２チャネルの複数の音響信号を生成する第３のステップと、
第３のステップによって生成された隣り合う２個の時間周波数成分の組毎に、２チャネルの複数の音響信号を生成する第４のステップと、
全ての組における音響信号をチャネル毎に合成して、チャネル毎の音響信号を出力する第５のステップと
を実行することを特徴とする装置のミキシング方法。