JP2017143406A

JP2017143406A - バイノーラル音生成装置、マイクロホンアレイ、バイノーラル音生成方法、プログラム

Info

Publication number: JP2017143406A
Application number: JP2016023347A
Authority: JP
Inventors: 健太丹羽; Kenta Niwa; 和則小林; Kazunori Kobayashi; 隆典西野; Takanori Nishino
Original assignee: Nippon Telegraph and Telephone Corp; Mie University NUC
Current assignee: Nippon Telegraph and Telephone Corp; Mie University NUC
Priority date: 2016-02-10
Filing date: 2016-02-10
Publication date: 2017-08-17
Anticipated expiration: 2036-02-10
Also published as: JP6569945B2

Abstract

【課題】アレイ信号処理のパラメータの調整が不要な、観測信号からバイノーラル音を生成するバイノーラル音生成装置を提供する。【解決手段】ｎ、ｋをＭ＝２ｎ＋ｋ（ｎ≧１、ｋ＝０または１）を満たす整数とし、マイクロホンアレイの立体形状を上から見た形状は、対称性を持つ図形であり、Ｍ個の窪みは、立体形状の側面に設けられ、そのうち２ｎ個の窪みは、立体形状を上から見て１８０度間隔でペアになるように設けられるものであり、窪みには少なくとも１本のマイクロホンが設置されており、観測信号を補間合成することによりバイノーラル音を生成する補間合成部とを含む。【選択図】図５

Description

本発明は、バイノーラル音生成技術に関し、特に所定の立体形状をしたマイクロホンアレイを用いて収音した信号からバイノーラル音を生成する技術に関する。

近年、全天球カメラが普及したことを背景として、ユーザが見渡している映像に対応した音を仮想的に生成するための研究が盛んにおこなわれている。その一つに、全天球映像音声視聴システムがある（非特許文献１）。全天球映像とは、全天球カメラで撮影した映像のことである。これにより、ユーザはあたかも撮影した場にいるかのような映像を視ることが可能となる。

全天球映像音声視聴システムでは、複数の領域（具体的には、特定の角度幅で区切った領域）において推定した局所音源信号群にＨＲＴＦ（Ｈｅａｄ−ＲｅｌａｔｅｄＴｒａｎｓｆｅｒＦｕｎｃｔｉｏｎ）を畳み込むことにより、ユーザが見渡している映像に対応するバイノーラル音を生成・出力することができる。このシステムでは、ユーザがジャイロセンサ付きのＨＭＤ（ＨｅａｄＭｏｕｎｔｅｄＤｉｓｐｌａｙ）を装着することで、頭部方向をリアルタイムに取得する。そして、取得した頭部方向に応じて各局所音源信号に畳み込むＨＲＴＦを切り替えることで、ユーザが見渡している映像に対応したバイノーラル音をリアルタイムに生成する。生成したバイノーラル音はイヤホンやヘッドホンを用いて聴取される。

なお、ＨＭＤは１枚のフレネルレンズとスマートホンを組み合わせて構成されるような簡単なものでもよい。スマートホンを用いて構成することにより、ネットワークで配信されるコンテンツの視聴が容易に可能となる。

以下では、全天球映像音声視聴システムにおける音の生成（全天球映像に対応したバイノーラル音の生成システム）について説明する。

Ｋ個（Ｋは１以上の整数）の音源が存在する音場に、Ｍ本（Ｍは１以上の整数）のマイクロホンで構成されたアレイを設置して観測することを想定する。ｋ番目（１≦ｋ≦Ｋ）の音源信号をＳ_ｋ,ω,τ、ｍ番目（１≦ｍ≦Ｍ）の観測信号をＸ_ｍ,ω,τ、その間の伝達特性をＡ_ｍ,ｋ,ωとするとき、観測信号群ｘ_ω,τは次式でモデル化される。

ここで、ω、τはそれぞれ周波数のインデックス、フレーム時間のインデックスを表す。また、

であり、Ｔは転置、Ｎ_ｍ,ω,τはｍ番目の観測信号に含まれる背景雑音を表す。

ユーザが見渡している映像に対応したバイノーラル音ｂ_ω,τ＝[Ｂ_ω,τ ^（Left），Ｂ_ω,τ ^(Right)]^Ｔの生成について説明する。フレーム時間τにおけるユーザの頭部方向（極座標表現）をΨ_τ＝［Ψ_τ ^(Hor)，Ψ_τ ^(Ver)]^Ｔと表す。音源の指向性や背景雑音を無視できると仮定したとき、ユーザの頭部方向と各音源の間のＨＲＴＦを各音源信号に畳み込むことで、ユーザが見渡している映像に対応したバイノーラル音ｂ_ω,τを出力できる。その様子を図１に示す。

ここで、Ｈ_ｋ,Ψτ,ω ^(Left)、Ｈ_ｋ,Ψτ,ω ^(Right)は、ｋ番目の音源とユーザの左耳間のＨＲＴＦ、ｋ番目の音源とユーザの右耳間のＨＲＴＦをそれぞれ表す。

近接した音源の位置の違いに対してＨＲＴＦが劇的に変化しないことを考慮すると、局所的な領域内にある音源群を１つの音源信号（以下、局所音源信号という）と見なしてもユーザの音像定位に大きな影響を及ぼさないと考えられる。そこで、全天球映像音声視聴システムでは、個々の音源信号を抽出するのではなく、方向Θ_ｊ＝[Θ_ｊ ^(Hor),Θ_ｊ ^(Ver)]^Ｔ（ｊ＝１，…，Ｌ）を主軸とした角度幅を持つＬ個の領域（以下、簡単のため、局所領域Θ_ｊともいう）群における局所音源信号群を推定する方向別収音する方式を採用する。その様子を図２に示す。例えば、図２の局所音源信号Ｚ_Θ３,ω,τと図１の３番目の音源信号Ｓ_３,ω,τ、４番目の音源信号Ｓ_４,ω,τが対応していることを示している。なお、方向別収音の具体的な方法については後述する。

方向Θ_ｊ＝[Θ_ｊ ^(Hor),Θ_ｊ ^(Ver)]^Ｔを主軸とした角度幅を持つ領域とその他領域から到来した音源群を分離し、局所音源信号Ｚ_Θｊ,ω,τ（ｊ＝１，…，Ｌ）が推定されたと仮定すると、ユーザが見渡している映像に対応したバイノーラル音ｂ_ω,τは、次式で仮想的に生成される。

ここで、Ｈ_{Θｊ,Ψτ,ω} ^(Left)、Ｈ_{Θｊ,Ψτ,ω} ^(Right)は、ｊ番目の領域の主軸方向とユーザの左耳間のＨＲＴＦ、ｊ番目の領域の主軸方向とユーザの右耳間のＨＲＴＦをそれぞれ表す。なお、音場の残響時間、頭部や両耳の物理構造の個人性、音源と受聴者の間の距離に応じてＨＲＴＦが変化することは一般的に知られているが、ここでは、これらの影響を無視できると仮定し、Ｈ_{Θｊ,Ψτ,ω} ^(Left)、Ｈ_{Θｊ,Ψτ,ω} ^(Right)を簡略化して表すこととした。この簡略化したＨ_{Θｊ,Ψτ,ω} ^(Left)、Ｈ_{Θｊ,Ψτ,ω} ^(Right)は、あらかじめＨＡＴＳ（ＨｅａｄａｎｄＴｏｒｓｏＳｉｍｕｌａｔｏｒｓ）を低残響下に設置し、スピーカを離散的に配置して収録したデータベースから最も近い方向のＨＲＴＦを選択することで得られる。

音源信号群ｓ_ω,τからバイノーラル音ｂ_ω,τを生成するための全体的な処理フローを図３に示す。図３における再合成処理が式（９）、式（１０）を用いたバイノーラル音の生成に対応する。その際、ＨＭＤにより取得されたユーザの頭部方向が入力される（図３におけるユーザコントロールが対応する）。

次に、観測信号群ｘ_ω,τから局所音源信号群ｚ_ω,τ＝[Ｚ_Θ１,ω,τ，…，Ｚ_ΘＬ,ω,τ]^Ｔを収音する方向別収音について説明する。全天球映像音声視聴システムでは、局所ＰＳＤ（ＰｏｗｅｒＳｐｅｃｔｒａｌＤｅｎｓｉｔｙ）推定に基づく音源強調方式による方向別収音を用いる。

ここで、全天球映像音声視聴システムにおいて音源別収音でなく、方向別収音を用いる理由を説明する。ユーザが見渡している映像に対応するように分離した信号群を定位操作し再合成するという用途では、近接した位置にある音源群を無理に分離する必要性はないと考えられる。これは、音源群と受聴者の間のＨＲＴＦの特性が大きく変わらないため、受聴者の音像定位に対して大きな影響を及ぼさないからである。むしろ、音源が時々刻々と移動する状況を想定するならば、できるだけ均一に区切られた領域群に対応する局所音源信号群を生成できる方が好ましいからである。

観測信号群ｘ_ω,τにビームフォーミングを適用する、あるいはショットガンマイクのような超指向性のマイクロホンを用いて受音する等の手段により方向Θ_ｊを主軸とした領域から到来した音をプリエンハンスした信号をＹ_Θｊ,ω,τ（ｊ＝１，…，Ｌ）とする。また、プリエンハンスした信号群をｙ_ω,τ＝［Ｙ_Θ１,ω,τ，…，Ｙ_ΘＬ,ω,τ］^Ｔと表す。プリエンハンスした信号群ｙ_ω,τを生成する処理が図３における指向性形成処理である。

音源信号が互いに無相関であると仮定すると、Ｙ_Θｊ,ω,τのＰＳＤφ_ＹΘｊ,ωは次式でモデル化される。

ここで、＜・＞は期待値演算、Ｄ_Θｊ,ｋ,ωはｋ番目の音源に対するｊ番目のビームフォーミング／受音の平均的な感度、φ_Ｓｋ,ωはｋ番目の音源のＰＳＤを表す。

式（１１）の関係が局所音源信号群ｚ_ω,τとプリエンハンスされた信号群ｙ_ω,τの関係についても成り立つと仮定すると、φ_ＹΘｊ,ωは次式で近似して表される。

ここで、Ｄ_{Θｊ,Θｉ,ω}は方向Θ_ｉを主軸とした領域に対するｊ番目のビームフォーミング／受音の平均的な感度、φ_ＳΘｉ,ωはｉ番目の局所音源信号のＰＳＤ（局所ＰＳＤ）を表す。Ｌ個のφ_ＳΘｉ,ωとφ_ＹΘｊ,ωの関係は次式でモデル化される。

Ｌ個の局所ＰＳＤφ_ＳΘｉ,ωを推定するために、式（１３）の逆問題を解く。ここでは、雑音抑圧性能を高めるために、フレーム毎に局所ＰＳＤを推定することとすると、逆問題は次式で定式化される。

なお、実用上の課題としてスパース性を仮定できる局所領域の数Ｌ、Ｄ_ω ^-１の安定性を制御する課題が生じる。Ｄ_ωの要素はすべて正の数であるため、Ｄ_ωの特異値の条件によっては安定に解が求まらないこともある。したがって、マニュアルで安定化計算の調整をする必要がある。例えば、以下のように対角項に所定の値を加算する操作を行い、調整すればよい。

ここで、εは安定化係数であり、値が大きいほど安定な逆行列計算を可能にする。

観測信号に干渉雑音のみが混在している場合には、式（１４）で算出したΦ＾_Ｓ,ω,τから目的音のＰＳＤ及び雑音のＰＳＤを求めればよい。なお、目的音のＰＳＤ、雑音のＰＳＤは音源強調のフィルタを生成する際に必要となる。

しかし、実際には式（１）のように非干渉性（あるいは拡散性）の背景雑音が観測信号に存在する。そのような場合には、干渉性雑音のＰＳＤと背景雑音のＰＳＤを別々に推定した方が精度の高い音源強調のフィルタを生成できると考えられる。干渉性雑音のＰＳＤと背景雑音のＰＳＤを別々に推定するための一方法を以下で説明する。

まず、式（１４）で算出したΦ＾_Ｓ,ω,τから背景雑音のＰＳＤを取り除く。背景雑音は目的音、干渉雑音とは無相関であると仮定できるので、パワースペクトル領域での加算性を仮定しても近似的には成り立つと考えられる。ｉ番目の方向Θ_ｉの局所領域にある音源群を目的音とする。そのとき、局所ＰＳＤφ_{ＳΘｉ,ω,τ}からその中に存在する背景雑音のＰＳＤφ_{BNTΘｉ,ω,τ}を減算する。これにより、推定された目的音のＰＳＤ（背景雑音の影響を除去済み）φ_{TSΘｉ,ω,τ}が求まる。

もし、目的音のＰＳＤφ_{TSΘｉ,ω,τ}が０より小さいときには０にする。また、式（１６）の背景雑音のＰＳＤφ_{BNTΘｉ,ω,τ}を計算するために背景雑音が時間的な定常性が強い（つまり、時間に応じて劇的に変化しない）ことを仮定し、再帰的な更新アルゴリズムにより、φ_{ＳΘｉ,ω,τ}を時間平滑化処理することで突発性の成分を除去すると、式（１７）が得られる。

ここで、β_ωは時間平滑化のための定数である。例えば、１５０ｍｓ程度で忘却するように設定すればよい。φ⁻ _{ＳΘｉ,ω,τ}の区間Τにおける最低値を保持することで、目的音領域（ｉ番目の方向Θ_ｉの局所領域）の背景雑音のＰＳＤφ_{BNTΘｉ,ω,τ}を推定することができる。

同様に、目的音領域（ｉ番目の方向Θ_ｉの局所領域）以外の領域にある干渉性雑音群のＰＳＤφ_{ISΘｉ,ω,τ}を推定するために目的音と同様に背景雑音のＰＳＤφ_{BNIΘｉ,ω,τ}を減算する。

ここで、α_１,ωはコンテンツに応じて最適値が変わる重み係数である。また、干渉性雑音群のＰＳＤφ_{ISΘｉ,ω,τ}についても０より小さいときには０にフロアリングする。式（１９）にある背景雑音のＰＳＤφ_{BNIΘｉ,ω,τ}は以下のように計算する。

ｊ番目の局所音源信号Ｚ_Θｊ,ω,τを推定するためのウィーナーフィルタＧ_Θｊ,ω,τを生成する。

ここで、α_２,ω、α_３,ωは重み係数である。

式（２２）を用いて計算した後のウィーナーフィルタＧ_Θｊ,ω,τを以下のように整形する。

ここで、α_４,ωは重み係数である。この後、α_５,ω（０≦α_５,ω＜１）を用いて、α_５,ω≦Ｇ_Θｊ,ω,τ≦１となるようにＧ_Θｊ,ω,τのフロアリング処理を行う。局所音源信号Ｚ_Θｊ,ω,τは次式で算出される。

プリエンハンスした信号群ｙ_ω,τをウィーナーフィルタリングすることにより局所音源信号群ｚ_ω,τを生成する処理が図３における方向別収音処理である。

最後に、全天球映像音声視聴システムにおけるバイノーラル音の生成処理を実行するバイノーラル音生成システム９００について説明する。図４は、バイノーラル音生成システム９００の構成を示すブロック図である。図４に示すようにバイノーラル音生成システム９００は、収音装置９０５と、再合成装置９５５を含む。収音装置９０５は、Ｍ本のマイクロホン９１０−１〜９１０−Ｍと、Ｍ個の周波数領域変換部９２０−１〜９２０−Ｍと、Ｌ個のビームフォーミング部９３０−１〜９３０−Ｌと、局所ＰＳＤ推定部９４０と、ウィーナーフィルタリング部９５０を含む。再合成装置９５５は、ＨＲＴＦ畳み込み部９６０を含む。

時間領域観測信号群から局所音源信号群を生成する処理（音源分離処理）を実行するのが、収音装置９０５である。マイクロホン９１０−１〜９１０−Ｍは、Ｋ個の音源が存在する音場の音声を収音し、時間領域観測信号を生成する。周波数領域変換部９２０−１〜９２０−Ｍは、それぞれ時間領域観測信号を観測信号Ｘ_ｍ,ω,τ（１≦ｍ≦Ｍ）に変換する。

ビームフォーミング部９３０−１〜９３０−Ｌは、Ｍ個の観測信号（観測信号群）からプリエンハンスした信号Ｙ_Θｊ,ω,τ（ｊ＝１，…，Ｌ）を生成する。なお、マイクロホン９１０−１〜９１０−Ｍの代わりに、Ｌ＝Ｍとして、Ｌ個の指向性マイクを用いて収音するのでもよい。この場合、指向性マイクを用いて収音した信号をプリエンハンスした信号Ｙ_Θｊ,ω,τ（ｊ＝１，…，Ｌ）としてよいので、ビームフォーミング部９３０−１〜９３０−Ｌが不要になる。

局所ＰＳＤ推定部９４０は、プリエンハンスした信号Ｙ_Θｊ,ω,τ（ｊ＝１，…，Ｌ）を用いて目的音のＰＳＤ、干渉雑音のＰＳＤ、背景雑音のＰＳＤを生成する。具体的には、式（１４）、式（１６）、式（１９）、式（１８）を用いて、目的音のＰＳＤ、干渉雑音のＰＳＤ、背景雑音のＰＳＤを生成する。

ウィーナーフィルタリング部９５０は、目的音のＰＳＤ、干渉雑音のＰＳＤ、背景雑音のＰＳＤを用いてＬ個のウィーナーフィルタを生成し、プリエンハンスした信号Ｙ_Θｊ,ω,τ（ｊ＝１，…，Ｌ）にウィーナーフィルタＧ_Θｊ,ω,τ（ｊ＝１，…，Ｌ）を適用し、局所音源信号Ｚ_Θｊ,ω,τ（ｊ＝１，…，Ｌ）を生成する。具体的には、式（２２）、式（２３）、式（２４）を用いて局所音源信号Ｚ_Θｊ,ω,τを生成する。

局所音源信号群からバイノーラル音を生成する処理（再合成処理）を実行するのが、再合成装置９５５である。ＨＲＴＦ畳み込み部９６０は、局所音源信号Ｚ_Θｊ,ω,τ（ｊ＝１，…，Ｌ）からバイノーラル音ｂ_ω,τを生成する。具体的には、式（９）、式（１０）を用いて受聴用のバイノーラル信号である受聴信号（左）と受聴信号（右）を生成する。

なお、インターネットのようなネットワークに収音装置９０５と再合成装置９５５を接続してバイノーラル音生成システム９００を構成することもできる。この場合、収音装置９０５、再合成装置９５５はネットワークによる通信に必要は手段を具備する必要があるのはいうまでもない。また、伝送に適するよう、局所音源信号群を符号化する符号化部、局所音源信号群を符号化した符号化データを復号する復号部をそれぞれ収音装置９０５、再合成装置９５５に備えるようにしてもよい。

全天球映像音声視聴システムでは音源分離処理をしたうえでバイノーラル音を生成するため、観測信号を生成するマイクロホンの配置やマイクロホンアレイの形状について特に制限はなかった。一方、観測信号を生成するマイクロホンを特殊な形状のマイクロホンアレイに配置し収音することにより、観測信号からバイノーラル音を直接得るようなバイノーラル録音に関する研究も進められている。通常、バイノーラル録音では、ＨＡＴＳやダミーヘッドのような耳介つきのマイクロホンを用いて録音する。これに対し、非特許文献２では、耳介を精巧にモデル化することなく、固定方向を撮像した映像に対するバイノーラル音を簡易録音する方法を提案している。非特許文献２では、球状のマイクロホンアレイに、半球状の窪みを設け、そこにマイクロホンを設置するという簡素な構成を用いても、音を定位するための手がかりになり得るような周波数−空間特性パターンを得られることを確認している。

丹羽健太、小泉悠馬、小林和則、植松尚、"全天球映像に対応したバイノーラル音を生成するための方向別収音に関する検討"、信学技報EA2015-7、電子情報通信学会、２０１５年７月、vol.115, no.126, pp.33-38. 中桐大志、山村俊貴、西野隆典、成瀬央、武田一哉、"くぼみ付き球状マイクロホンバッフルを用いたバイノーラル録音の検討"、日本音響学会２０１５年春季研究発表会2-P-42、２０１５年３月、pp.889-890.

バイノーラル音生成システム９００では、雑音抑圧量等を調整するために必要となるアレイ信号処理のパラメータ（収音装置９０５のパラメータ）の最適値がコンテンツごとに異なるため、パラメータの調整作業を行う必要性があった。一方、コンテンツごとに最適なパラメータに調整するのでなく、様々なコンテンツに対して汎用的に使えるようなパラメータに調整することも考えられるが、このようにすると収音性能が劣化するコンテンツが存在するなどの問題があった。

そこで本発明では、アレイ信号処理のパラメータの調整が不要な、観測信号からバイノーラル音を生成するバイノーラル音生成装置を提供することを目的とする。

本発明の一態様は、マイクロホンを設置するＭ個（Ｍは３以上の整数）の窪みを備えるマイクロホンアレイを用いて収音した観測信号からバイノーラル音を生成するバイノーラル音生成装置であって、ｎ、ｋをＭ＝２ｎ＋ｋ（ｎ≧１、ｋ＝０または１）を満たす整数とし、前記マイクロホンアレイの立体形状を上から見た形状は、対称性を持つ図形であり、前記Ｍ個の窪みは、前記立体形状の側面に設けられ、そのうち２ｎ個の窪みは、前記立体形状を上から見て１８０度間隔でペアになるように設けられるものであり、前記窪みには少なくとも１本のマイクロホンが設置されており、前記観測信号を補間合成することにより前記バイノーラル音を生成する補間合成部とを含む。

本発明によれば、上から見た形状が対称性を有する立体形状に上から見て１８０度間隔でペアになるような位置に設けられた窪みにマイクロホンを設置したマイクロホンアレイを用いて収音した観測信号から補間合成によりバイノーラル音を生成することにより、アレイ信号処理のパラメータの調整作業を行うことなく、観測信号からバイノーラル音を生成することが可能となる。

音源別収音を用いた頭部方向に応じたバイノーラル音の生成のイメージを示す図。方向別収音を用いた頭部方向に応じたバイノーラル音の生成のイメージを示す図。全天球映像音声視聴システムにおけるバイノーラル音の生成処理フローを示す図。バイノーラル音生成システム９００の構成を示すブロック図。バイノーラル音生成装置４００の構成を示すブロック図。バイノーラル音生成装置４００の動作を示すフローチャート。マイクロホンアレイ４１０の立体形状の一例を示す図。マイクロホンアレイ４１０の立体形状の一例を示す図。マイクロホンアレイ４１０に全天球映像生成用カメラを内蔵した様子を示す図。マイクロホンアレイ４１０のマイクロホンの設置位置の一例を示す図。水平面におけるマイクロホンの選択の様子を示す図。水平面における各マイクの重み係数のグラフを示す図。水平方向と仰角方向の重みのグラフを示す図。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

非特許文献２は、精巧な耳介のモデルの代わりに、球状をしたマイクロホンアレイに設けた半球状の窪みにマイクロホンを設置するだけで音源定位に有用な情報が受音信号に含まれることを実験的に示している。そこで、この簡単な立体形状に設けた窪みにマイクロホンを設置するという簡易な方法を全方位収音に拡張し、当該収音信号から全天球映像に対応したバイノーラル音を仮想的に生成する方法について説明する。

以下、図５〜図６を参照してバイノーラル音生成装置４００について説明する。図５は、バイノーラル音生成装置４００の構成を示すブロック図である。図６は、バイノーラル音生成装置４００の動作を示すフローチャートである。図５に示すようにバイノーラル音生成装置４００は、マイクロホンアレイ４１０と、補間合成部４２０を含む。マイクロホンアレイ４１０は所定の位置に窪みがある所定の立体形状をしており、その窪みにＭ本のマイクロホン９１０−１〜９１０−Ｍが設置される。

マイクロホンアレイ４１０は、Ｋ個の音源が存在する音場の音声を収音し、Ｍ個の時間領域の観測信号を生成する（Ｓ４１０）。マイクロホンアレイ４１０の立体形状の一例は、球体、円柱である。また、厳密な球体・円柱ではなく、球体・円柱に近い形状であってもよい。全天球映像を視る際首を左右に振り回すことを考えると、一般に立体形状を上から見た形状が典型的には円のように点対称な図形、対称性を持つ図形の方がよい。

また、これらの立体形状の側面を９０度間隔で窪ませることにより、窪みが構成される。この窪みは耳介を簡易にモデル化したものである。この窪みの形状は半球状といった単純な形状でよい。また、窪みは９０度間隔に制限されるものではない。人間の耳の配置が上から見て左右対称であることを考慮して、マイクロホンの左右ペア（１８０度間隔のペア）を左右対称に側面に設置できるのであれば、例えば、６０度、３０度といった角度間隔（一般に、ｎを２以上の整数として、１８０／ｎ度間隔）のようにどのような角度で窪みをつけてもよい。なお、９０度間隔よりも狭めたほうが収音性能はよくなる。また、マイクロホンを左右ペアとして左右対称に設置できるのであれば、窪みを設置する間隔は厳密に１８０／ｎ度間隔のように均一の間隔でなくてもよい。

首を左右に振る動作と人間の耳の配置を考慮すると、上から見て対称な立体形状に、マイクロホンの左右ペアを左右対称に設置するのが最も収音性能がよくなる。各窪みに１本のマイクロホンを設置することとすると、９０度、６０度、３０度のときそれぞれ、４本、６本、１２本のマイクロホンが設置されることになる。ただし、補間合成により受聴用の仮想バイノーラル音を生成することができるので、必ずしも左右ペアとなる２本のマイクロホンを左右対称に設置するのでなくてもよい。例えば、９０度間隔で設けた４つの窪みのうち、３つの窪みについて各１本のマイクロホンを設置する構成としてもよい。また、残り１つについては実際には窪みになっていなくてもよい。

前後の顔の向き（耳の向き）を考慮して、各窪みに２本のマイクロホンを設置するようにしてもよい（図７（Ｃ）参照）。このように設置することにより、より高音質のバイノーラル音が再合成できるようになる。

さらに、首を上下に振る動作を考慮すると、立体形状の上面や下面にマイクロホンを設置するのがよい。なお、上面や下面にマイクロホンを設置する場合は、窪みは不要である。耳介をモデル化する必要がないからである。このように仰角方向にもマイクロホンを設置することでも、より高音質のバイノーラル音が再合成できるようになる。

このような窪みを備えた立体形状の例を図７、図８に示す。図７（Ａ）、図８（Ａ）はマイクロホンアレイの立体形状を上・下から見た図である。図７（Ｂ）、図８（Ｂ）はマイクロホンアレイの立体形状を正面（背面）・横から見た図である。図７（Ｃ）、図８（Ｃ）は窪みの形状、マイクロホンを設置する受音位置を示した図である。図７（Ａ）〜（Ｃ）、図８（Ａ）〜（Ｃ）における破線の半円あるいは実線の円が窪みを、小さい黒点が受音位置を示している。受音位置は、非特許文献２の図１の左図のように水平面上で前後、左右等に３０度ずらしてもよい。図８（Ｄ）は図８（Ａ）、（Ｂ）で示す立体形状の上面・下面の形状がどのように生成されるのか示したものである。図８（Ｄ）の実線部が立体形状の上面・下面の形状である。

図７、図８からわかるように上から見ても横から見ても上下、左右に対称性のある図形になっていることがわかる。また、マイクロホンアレイの立体形状は円柱や球体を組み合わせて構成されていることもわかる。図７、図８の立体形状は直径１２ｃｍの円柱がベースとなっているが、この立体形状が頭部形状を模擬することを考慮すると、直径１６ｃｍ程度の球体に近い方がよい。なお、立体形状を上から見た形状の幅（円の場合は直径に相当するもの）の上限は、伝達遅延を考慮すると、２５ｃｍ程度である。また、下限については、マイクロホンアレイを小型化することを考慮すると、５ｃｍ程度となる。つまり、幅は、５ｃｍ以上２５ｃｍ以下にするとよい。

図７（Ｃ）、図８（Ｃ）をみればわかるように各窪みには、２本のマイクロホンが設置されている。これは、先述の通り、前後の顔の向きに応じてバイノーラル音を生成するためである。

また、水平方向の定位だけでなく、仰角方向の定位を付与するために立体形状の上面・下面にマイクロホンを設置してもよい。上面あるいは下面に１本のマイクロホンを設置するだけでもよい。もちろん、上面・下面にそれぞれ１本のマイクロホンを設置するのでもよい。図７、図８の立体形状では上面・下面に各３本のマイクロホンが設置されている。耳介を模擬する必要がないため、上面・下面にマイクロホンを設置する場合、窪みは必要ないのは先述の通りである。

なお、全天球映像生成用カメラは例えば図９に示すようにマイクロホンアレイ４１０に内蔵されていてもいいし、マイクロホンアレイ４１０とは別の場所に設置してあってもよい。

補間合成部４２０は、Ｍ個の時間領域の観測信号ｘ_ｍ,ｔ（１≦ｍ≦Ｍ）を補間合成し、受聴用の仮想信号である時間領域のバイノーラル音ｂ_ｔ ^(Left)、ｂ_ｔ ^(Right)を生成する（Ｓ４２０）。具体的には、式（２５）、式（２６）を用いて補間合成を行う。

ここで、ｗ_ｍ,Ψτ ^(Left)、ｗ_ｍ,Ψτ ^(Right)は、頭部方向Ψτ やマイクインデックスｍによって変わる重み係数である。

以下、図１０〜１３を参照して補間に用いる重み係数の設計について説明する。ここでは、水平方向に９０度ごとに４箇所の窪みがあり、上面・下面に各１本のマイクロホンが設置されているマイクロホンアレイ４１０を用いて説明する。マイクロホンアレイ４１０は計１０本のマイクロホンを用いて受音することになる。

図１０は、マイクロホンの設置位置（受音位置）をマイクインデックスｍ（以下、Ｍｉｃ（ｍ）と表す）を用いて示した図である。図１０に示すように、Ｍｉｃ（１）とＭｉｃ（２）がある窪み（図中の太線の半円）方向を本マイクロホンアレイの正面（Ａｚｉｍｕｔｈ＝０°）とする。また、窪み中央を通る水平面を基準水平面（Ｅｌｅｖａｔｉｏｎ＝０°）とする。なお、上面・下面に設置する各１本のマイクロホンはＭｉｃ（１０）とＭｉｃ（１３）に設置されるものとする。つまり、Ｍｉｃ（９）、Ｍｉｃ（１１）、Ｍｉｃ（１２）、Ｍｉｃ（１４）にはマイクロホンを設置しない。

図１１に、水平面におけるマイクロホンの選択の様子を示す。目が向いている方向（矢印で示す方向）が、ユーザの頭部方向に対応する。なお、Ｍｉｃ（１）〜Ｍｉｃ（８）の位置は変わらないものとする。例えば、上段の一番左の図では、目が０°の方向を向いており、このときＭｉｃ（４）、Ｍｉｃ（７）を用いて観測されることになる。

図１２に、水平面（横の動き）における各マイクの重み係数のグラフを示す。グラフに従い、各マイクロホンの重み係数を設定する。例えば、Ｍｉｃ（１）のグラフ（左上のグラフ）を見ると、−１８０°〜−９０°では重み係数（グラフのＷｅｉｇｈｔ）が０から１に単調増大し、−９０°〜０°では重み係数が１から０に単調減少、０°〜１８０°では重み係数がゼロになるように設定されることがわかる。

図１３に、水平方向と仰角方向の重み係数（上下のマイクで受音した信号を重みづけ加算に用いる重み）のグラフを示す。水平方向と同様にグラフに従い、各重み係数を設定する。三つのグラフをあわせてみると、−９０°〜９０°において水平方向（ＨｏｒｉｚｏｎｔａｌＳｉｇｎａｌ）の重み係数、Ｍｉｃ（１０）とＭｉｃ（１３）の仰角方向（ＶｅｒｔｉｃａｌＳｉｇｎａｌ）の重み係数の和が１になるように設定されることがわかる。

なお、水平方向の重み係数（図１２）、上下の定位感付与のための仰角方向の重み係数（図１３）は厳格に設計する必要はない。あくまで頭部方向に応じて対応関係のとれる重み係数に設定されていればよい。

水平方向の重み係数と仰角方向の重み係数を用いて補間合成する方法について説明する。まず、頭部方向の水平角にある８本のマイクロホンで受音した信号をあらかじめ設定した重み係数に応じて合成する。次に、頭部方向の仰角に応じて先ほど合成した信号と上下方向にある２本のマイクロホンで受音した信号を重みづけ加算し、最終的な仮想バイノーラル音を得る。

頭部方向がΨτであるときのｍ番目のマイクロホンに対する重みｗ_ｍ,Ψτ ^(Left)、ｗ_ｍ,Ψτ ^(Right)は上述のように計算できるので、音源分離処理を行うことなく、仮想的なバイノーラル音を生成することができる。

本実施形態では、マイクロホンアレイ４１０を用いてＭチャネルの信号を観測し、補間合成部４２０でミックスダウン（補間合成）することで仮想的なバイノーラル音を生成する。これにより、バイノーラル音生成システム９００で採用した音源強調法に存在する、収録対象の音の種類に対して最適値が変わるような潜在パラメータ群の調整作業を不要とすることができる。

＜補記＞
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ−ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

マイクロホンを設置するＭ個（Ｍは３以上の整数）の窪みを備えるマイクロホンアレイを用いて収音した観測信号からバイノーラル音を生成するバイノーラル音生成装置であって、
ｎ、ｋをＭ＝２ｎ＋ｋ（ｎ≧１、ｋ＝０または１）を満たす整数とし、
前記マイクロホンアレイの立体形状を上から見た形状は、対称性を持つ図形であり、
前記Ｍ個の窪みは、前記立体形状の側面に設けられ、そのうち２ｎ個の窪みは、前記立体形状を上から見て１８０度間隔でペアになるように設けられるものであり、
前記窪みには少なくとも１本のマイクロホンが設置されており、
前記観測信号を補間合成することにより前記バイノーラル音を生成する補間合成部と
を含むバイノーラル音生成装置。
マイクロホンを設置するＭ個（Ｍは３以上の整数）の窪みを備えるマイクロホンアレイであって、
ｎ、ｋをＭ＝２ｎ＋ｋ（ｎ≧１、ｋ＝０または１）を満たす整数とし、
前記マイクロホンアレイの立体形状を上から見た形状は、対称性を持つ図形であり、
前記Ｍ個の窪みは、前記立体形状の側面に設けられ、そのうち２ｎ個の窪みは、前記立体形状を上から見て１８０度間隔でペアになるように設けられるものであり、
前記窪みには少なくとも１本のマイクロホンが設置されることを特徴とするマイクロホンアレイ。
請求項２に記載のマイクロホンアレイであって、
前記上から見た形状は円であることを特徴とするマイクロホンアレイ。
請求項２または３に記載のマイクロホンアレイであって、
前記ｋはｋ＝０を満たし、
前記２ｎ個の各窪みには２個のマイクロホンが設置されることを特徴とするマイクロホンアレイ。
請求項２ないし４のいずれか１項に記載のマイクロホンアレイであって、
前記立体形状の上面または下面または上面・下面の各面に少なくとも１本のマイクロホンを設置することを特徴とするマイクロホンアレイ。
マイクロホンを設置するＭ個（Ｍは３以上の整数）の窪みを備えるマイクロホンアレイを用いて収音した観測信号からバイノーラル音を生成するバイノーラル音生成装置におけるバイノーラル音生成方法であって、
ｎ、ｋをＭ＝２ｎ＋ｋ（ｎ≧１、ｋ＝０または１）を満たす整数とし、
前記マイクロホンアレイの立体形状を上から見た形状は、対称性を持つ図形であり、
前記Ｍ個の窪みは、前記立体形状の側面に設けられ、そのうち２ｎ個の窪みは、前記立体形状を上から見て１８０度間隔でペアになるように設けられるものであり、
前記窪みには少なくとも１本のマイクロホンが設置されており、
前記観測信号を補間合成することにより前記バイノーラル音を生成する補間合成ステップと
を実行するバイノーラル音生成方法。
請求項１に記載のバイノーラル音生成装置としてコンピュータを機能させるためのプログラム。