JP2017143406A - バイノーラル音生成装置、マイクロホンアレイ、バイノーラル音生成方法、プログラム - Google Patents

バイノーラル音生成装置、マイクロホンアレイ、バイノーラル音生成方法、プログラム Download PDF

Info

Publication number
JP2017143406A
JP2017143406A JP2016023347A JP2016023347A JP2017143406A JP 2017143406 A JP2017143406 A JP 2017143406A JP 2016023347 A JP2016023347 A JP 2016023347A JP 2016023347 A JP2016023347 A JP 2016023347A JP 2017143406 A JP2017143406 A JP 2017143406A
Authority
JP
Japan
Prior art keywords
sound
binaural sound
microphone array
microphone
dimensional shape
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016023347A
Other languages
English (en)
Other versions
JP6569945B2 (ja
Inventor
健太 丹羽
Kenta Niwa
健太 丹羽
和則 小林
Kazunori Kobayashi
和則 小林
隆典 西野
Takanori Nishino
隆典 西野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Mie University NUC
Original Assignee
Nippon Telegraph and Telephone Corp
Mie University NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, Mie University NUC filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016023347A priority Critical patent/JP6569945B2/ja
Publication of JP2017143406A publication Critical patent/JP2017143406A/ja
Application granted granted Critical
Publication of JP6569945B2 publication Critical patent/JP6569945B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Stereophonic Arrangements (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Stereophonic System (AREA)

Abstract

【課題】アレイ信号処理のパラメータの調整が不要な、観測信号からバイノーラル音を生成するバイノーラル音生成装置を提供する。【解決手段】n、kをM=2n+k(n≧1、k=0または1)を満たす整数とし、マイクロホンアレイの立体形状を上から見た形状は、対称性を持つ図形であり、M個の窪みは、立体形状の側面に設けられ、そのうち2n個の窪みは、立体形状を上から見て180度間隔でペアになるように設けられるものであり、窪みには少なくとも1本のマイクロホンが設置されており、観測信号を補間合成することによりバイノーラル音を生成する補間合成部とを含む。【選択図】図5

Description

本発明は、バイノーラル音生成技術に関し、特に所定の立体形状をしたマイクロホンアレイを用いて収音した信号からバイノーラル音を生成する技術に関する。
近年、全天球カメラが普及したことを背景として、ユーザが見渡している映像に対応した音を仮想的に生成するための研究が盛んにおこなわれている。その一つに、全天球映像音声視聴システムがある(非特許文献1)。全天球映像とは、全天球カメラで撮影した映像のことである。これにより、ユーザはあたかも撮影した場にいるかのような映像を視ることが可能となる。
全天球映像音声視聴システムでは、複数の領域(具体的には、特定の角度幅で区切った領域)において推定した局所音源信号群にHRTF(Head−Related Transfer Function)を畳み込むことにより、ユーザが見渡している映像に対応するバイノーラル音を生成・出力することができる。このシステムでは、ユーザがジャイロセンサ付きのHMD(Head Mounted Display)を装着することで、頭部方向をリアルタイムに取得する。そして、取得した頭部方向に応じて各局所音源信号に畳み込むHRTFを切り替えることで、ユーザが見渡している映像に対応したバイノーラル音をリアルタイムに生成する。生成したバイノーラル音はイヤホンやヘッドホンを用いて聴取される。
なお、HMDは1枚のフレネルレンズとスマートホンを組み合わせて構成されるような簡単なものでもよい。スマートホンを用いて構成することにより、ネットワークで配信されるコンテンツの視聴が容易に可能となる。
以下では、全天球映像音声視聴システムにおける音の生成(全天球映像に対応したバイノーラル音の生成システム)について説明する。
K個(Kは1以上の整数)の音源が存在する音場に、M本(Mは1以上の整数)のマイクロホンで構成されたアレイを設置して観測することを想定する。k番目(1≦k≦K)の音源信号をSk,ω,τ、m番目(1≦m≦M)の観測信号をXm,ω,τ、その間の伝達特性をAm,k,ωとするとき、観測信号群xω,τは次式でモデル化される。
ここで、ω、τはそれぞれ周波数のインデックス、フレーム時間のインデックスを表す。また、

であり、Tは転置、Nm,ω,τはm番目の観測信号に含まれる背景雑音を表す。
ユーザが見渡している映像に対応したバイノーラル音bω,τ=[Bω,τ (Left),Bω,τ (Right)] の生成について説明する。フレーム時間τにおけるユーザの頭部方向(極座標表現)をΨτ=[Ψτ (Hor),Ψτ (Ver)]と表す。音源の指向性や背景雑音を無視できると仮定したとき、ユーザの頭部方向と各音源の間のHRTFを各音源信号に畳み込むことで、ユーザが見渡している映像に対応したバイノーラル音bω,τを出力できる。その様子を図1に示す。
ここで、Hk,Ψτ,ω (Left)、Hk,Ψτ,ω (Right)は、k番目の音源とユーザの左耳間のHRTF、k番目の音源とユーザの右耳間のHRTFをそれぞれ表す。
近接した音源の位置の違いに対してHRTFが劇的に変化しないことを考慮すると、局所的な領域内にある音源群を1つの音源信号(以下、局所音源信号という)と見なしてもユーザの音像定位に大きな影響を及ぼさないと考えられる。そこで、全天球映像音声視聴システムでは、個々の音源信号を抽出するのではなく、方向Θ=[Θ (Hor) (Ver)](j=1,…,L) を主軸とした角度幅を持つL個の領域(以下、簡単のため、局所領域Θともいう)群における局所音源信号群を推定する方向別収音する方式を採用する。その様子を図2に示す。例えば、図2の局所音源信号ZΘ3,ω,τと図1の3番目の音源信号S3,ω,τ、4番目の音源信号S4,ω,τが対応していることを示している。なお、方向別収音の具体的な方法については後述する。
方向Θ=[Θ (Hor) (Ver)]を主軸とした角度幅を持つ領域とその他領域から到来した音源群を分離し、局所音源信号ZΘj,ω,τ(j=1,…,L)が推定されたと仮定すると、ユーザが見渡している映像に対応したバイノーラル音bω,τは、次式で仮想的に生成される。
ここで、HΘj,Ψτ,ω (Left)、HΘj,Ψτ,ω (Right)は、j番目の領域の主軸方向とユーザの左耳間のHRTF、j番目の領域の主軸方向とユーザの右耳間のHRTFをそれぞれ表す。なお、音場の残響時間、頭部や両耳の物理構造の個人性、音源と受聴者の間の距離に応じてHRTFが変化することは一般的に知られているが、ここでは、これらの影響を無視できると仮定し、HΘj,Ψτ,ω (Left)、HΘj,Ψτ,ω (Right)を簡略化して表すこととした。この簡略化したHΘj,Ψτ,ω (Left)、HΘj,Ψτ,ω (Right)は、あらかじめHATS(Head and Torso Simulators)を低残響下に設置し、スピーカを離散的に配置して収録したデータベースから最も近い方向のHRTFを選択することで得られる。
音源信号群sω,τからバイノーラル音bω,τを生成するための全体的な処理フローを図3に示す。図3における再合成処理が式(9)、式(10)を用いたバイノーラル音の生成に対応する。その際、HMDにより取得されたユーザの頭部方向が入力される(図3におけるユーザコントロールが対応する)。
次に、観測信号群xω,τから局所音源信号群zω,τ=[ZΘ1,ω,τ,…,ZΘL,ω,τ]を収音する方向別収音について説明する。全天球映像音声視聴システムでは、局所PSD(Power Spectral Density)推定に基づく音源強調方式による方向別収音を用いる。
ここで、全天球映像音声視聴システムにおいて音源別収音でなく、方向別収音を用いる理由を説明する。ユーザが見渡している映像に対応するように分離した信号群を定位操作し再合成するという用途では、近接した位置にある音源群を無理に分離する必要性はないと考えられる。これは、音源群と受聴者の間のHRTFの特性が大きく変わらないため、受聴者の音像定位に対して大きな影響を及ぼさないからである。むしろ、音源が時々刻々と移動する状況を想定するならば、できるだけ均一に区切られた領域群に対応する局所音源信号群を生成できる方が好ましいからである。
観測信号群xω,τにビームフォーミングを適用する、あるいはショットガンマイクのような超指向性のマイクロホンを用いて受音する等の手段により方向Θを主軸とした領域から到来した音をプリエンハンスした信号をYΘj,ω,τ(j=1,…,L)とする。また、プリエンハンスした信号群をyω,τ=[YΘ1,ω,τ,…,YΘL,ω,τと表す。プリエンハンスした信号群yω,τを生成する処理が図3における指向性形成処理である。
音源信号が互いに無相関であると仮定すると、YΘj,ω,τのPSDφYΘj,ωは次式でモデル化される。
ここで、<・>は期待値演算、DΘj,k,ωはk番目の音源に対するj番目のビームフォーミング/受音の平均的な感度、φSk,ωはk番目の音源のPSDを表す。
式(11)の関係が局所音源信号群zω,τとプリエンハンスされた信号群yω,τの関係についても成り立つと仮定すると、φYΘj,ωは次式で近似して表される。
ここで、DΘj,Θi,ωは方向Θを主軸とした領域に対するj番目のビームフォーミング/受音の平均的な感度、φSΘi,ωはi番目の局所音源信号のPSD(局所PSD)を表す。L個のφSΘi,ωとφYΘj,ωの関係は次式でモデル化される。
L個の局所PSDφSΘi,ωを推定するために、式(13)の逆問題を解く。ここでは、雑音抑圧性能を高めるために、フレーム毎に局所PSDを推定することとすると、逆問題は次式で定式化される。
なお、実用上の課題としてスパース性を仮定できる局所領域の数L、Dω -1の安定性を制御する課題が生じる。Dωの要素はすべて正の数であるため、Dωの特異値の条件によっては安定に解が求まらないこともある。したがって、マニュアルで安定化計算の調整をする必要がある。例えば、以下のように対角項に所定の値を加算する操作を行い、調整すればよい。
ここで、εは安定化係数であり、値が大きいほど安定な逆行列計算を可能にする。
観測信号に干渉雑音のみが混在している場合には、式(14)で算出したΦ^S,ω,τから目的音のPSD及び雑音のPSDを求めればよい。なお、目的音のPSD、雑音のPSDは音源強調のフィルタを生成する際に必要となる。
しかし、実際には式(1)のように非干渉性(あるいは拡散性)の背景雑音が観測信号に存在する。そのような場合には、干渉性雑音のPSDと背景雑音のPSDを別々に推定した方が精度の高い音源強調のフィルタを生成できると考えられる。干渉性雑音のPSDと背景雑音のPSDを別々に推定するための一方法を以下で説明する。
まず、式(14)で算出したΦ^S,ω,τから背景雑音のPSDを取り除く。背景雑音は目的音、干渉雑音とは無相関であると仮定できるので、パワースペクトル領域での加算性を仮定しても近似的には成り立つと考えられる。i番目の方向Θの局所領域にある音源群を目的音とする。そのとき、局所PSDφSΘi,ω,τからその中に存在する背景雑音のPSDφBNTΘi,ω,τを減算する。これにより、推定された目的音のPSD(背景雑音の影響を除去済み)φTSΘi,ω,τが求まる。
もし、目的音のPSDφTSΘi,ω,τが0より小さいときには0にする。また、式(16)の背景雑音のPSDφBNTΘi,ω,τを計算するために背景雑音が時間的な定常性が強い(つまり、時間に応じて劇的に変化しない)ことを仮定し、再帰的な更新アルゴリズムにより、φSΘi,ω,τを時間平滑化処理することで突発性の成分を除去すると、式(17)が得られる。
ここで、βωは時間平滑化のための定数である。例えば、150ms程度で忘却するように設定すればよい。φ SΘi,ω,τの区間Τにおける最低値を保持することで、目的音領域(i番目の方向Θの局所領域)の背景雑音のPSDφBNTΘi,ω,τを推定することができる。
同様に、目的音領域(i番目の方向Θの局所領域)以外の領域にある干渉性雑音群のPSDφISΘi,ω,τを推定するために目的音と同様に背景雑音のPSDφBNIΘi,ω,τを減算する。
ここで、α1,ωはコンテンツに応じて最適値が変わる重み係数である。また、干渉性雑音群のPSDφISΘi,ω,τについても0より小さいときには0にフロアリングする。式(19)にある背景雑音のPSDφBNIΘi,ω,τは以下のように計算する。
j番目の局所音源信号ZΘj,ω,τを推定するためのウィーナーフィルタGΘj,ω,τを生成する。

ここで、α2,ω、α3,ωは重み係数である。
式(22)を用いて計算した後のウィーナーフィルタGΘj,ω,τを以下のように整形する。
ここで、α4,ωは重み係数である。この後、α5,ω(0≦α5,ω<1)を用いて、α5,ω≦GΘj,ω,τ≦1となるようにGΘj,ω,τのフロアリング処理を行う。局所音源信号ZΘj,ω,τは次式で算出される。
プリエンハンスした信号群yω,τをウィーナーフィルタリングすることにより局所音源信号群zω,τを生成する処理が図3における方向別収音処理である。
最後に、全天球映像音声視聴システムにおけるバイノーラル音の生成処理を実行するバイノーラル音生成システム900について説明する。図4は、バイノーラル音生成システム900の構成を示すブロック図である。図4に示すようにバイノーラル音生成システム900は、収音装置905と、再合成装置955を含む。収音装置905は、M本のマイクロホン910−1〜910−Mと、M個の周波数領域変換部920−1〜920−Mと、L個のビームフォーミング部930−1〜930−Lと、局所PSD推定部940と、ウィーナーフィルタリング部950を含む。再合成装置955は、HRTF畳み込み部960を含む。
時間領域観測信号群から局所音源信号群を生成する処理(音源分離処理)を実行するのが、収音装置905である。マイクロホン910−1〜910−Mは、K個の音源が存在する音場の音声を収音し、時間領域観測信号を生成する。周波数領域変換部920−1〜920−Mは、それぞれ時間領域観測信号を観測信号Xm,ω,τ(1≦m≦M)に変換する。
ビームフォーミング部930−1〜930−Lは、M個の観測信号(観測信号群)からプリエンハンスした信号YΘj,ω,τ(j=1,…,L)を生成する。なお、マイクロホン910−1〜910−Mの代わりに、L=Mとして、L個の指向性マイクを用いて収音するのでもよい。この場合、指向性マイクを用いて収音した信号をプリエンハンスした信号YΘj,ω,τ(j=1,…,L)としてよいので、ビームフォーミング部930−1〜930−Lが不要になる。
局所PSD推定部940は、プリエンハンスした信号YΘj,ω,τ(j=1,…,L)を用いて目的音のPSD、干渉雑音のPSD、背景雑音のPSDを生成する。具体的には、式(14)、式(16)、式(19)、式(18)を用いて、目的音のPSD、干渉雑音のPSD、背景雑音のPSDを生成する。
ウィーナーフィルタリング部950は、目的音のPSD、干渉雑音のPSD、背景雑音のPSDを用いてL個のウィーナーフィルタを生成し、プリエンハンスした信号YΘj,ω,τ(j=1,…,L)にウィーナーフィルタGΘj,ω,τ(j=1,…,L)を適用し、局所音源信号ZΘj,ω,τ(j=1,…,L)を生成する。具体的には、式(22)、式(23)、式(24)を用いて局所音源信号ZΘj,ω,τを生成する。
局所音源信号群からバイノーラル音を生成する処理(再合成処理)を実行するのが、再合成装置955である。HRTF畳み込み部960は、局所音源信号ZΘj,ω,τ(j=1,…,L)からバイノーラル音bω,τを生成する。具体的には、式(9)、式(10)を用いて受聴用のバイノーラル信号である受聴信号(左)と受聴信号(右)を生成する。
なお、インターネットのようなネットワークに収音装置905と再合成装置955を接続してバイノーラル音生成システム900を構成することもできる。この場合、収音装置905、再合成装置955はネットワークによる通信に必要は手段を具備する必要があるのはいうまでもない。また、伝送に適するよう、局所音源信号群を符号化する符号化部、局所音源信号群を符号化した符号化データを復号する復号部をそれぞれ収音装置905、再合成装置955に備えるようにしてもよい。
全天球映像音声視聴システムでは音源分離処理をしたうえでバイノーラル音を生成するため、観測信号を生成するマイクロホンの配置やマイクロホンアレイの形状について特に制限はなかった。一方、観測信号を生成するマイクロホンを特殊な形状のマイクロホンアレイに配置し収音することにより、観測信号からバイノーラル音を直接得るようなバイノーラル録音に関する研究も進められている。通常、バイノーラル録音では、HATSやダミーヘッドのような耳介つきのマイクロホンを用いて録音する。これに対し、非特許文献2では、耳介を精巧にモデル化することなく、固定方向を撮像した映像に対するバイノーラル音を簡易録音する方法を提案している。非特許文献2では、球状のマイクロホンアレイに、半球状の窪みを設け、そこにマイクロホンを設置するという簡素な構成を用いても、音を定位するための手がかりになり得るような周波数−空間特性パターンを得られることを確認している。
丹羽健太、小泉悠馬、小林和則、植松尚、"全天球映像に対応したバイノーラル音を生成するための方向別収音に関する検討"、信学技報EA2015-7、電子情報通信学会、2015年7月、vol.115, no.126, pp.33-38. 中桐大志、山村俊貴、西野隆典、成瀬央、武田一哉、"くぼみ付き球状マイクロホンバッフルを用いたバイノーラル録音の検討"、日本音響学会2015年春季研究発表会2-P-42、2015年3月、pp.889-890.
バイノーラル音生成システム900では、雑音抑圧量等を調整するために必要となるアレイ信号処理のパラメータ(収音装置905のパラメータ)の最適値がコンテンツごとに異なるため、パラメータの調整作業を行う必要性があった。一方、コンテンツごとに最適なパラメータに調整するのでなく、様々なコンテンツに対して汎用的に使えるようなパラメータに調整することも考えられるが、このようにすると収音性能が劣化するコンテンツが存在するなどの問題があった。
そこで本発明では、アレイ信号処理のパラメータの調整が不要な、観測信号からバイノーラル音を生成するバイノーラル音生成装置を提供することを目的とする。
本発明の一態様は、マイクロホンを設置するM個(Mは3以上の整数)の窪みを備えるマイクロホンアレイを用いて収音した観測信号からバイノーラル音を生成するバイノーラル音生成装置であって、n、kをM=2n+k(n≧1、k=0または1)を満たす整数とし、前記マイクロホンアレイの立体形状を上から見た形状は、対称性を持つ図形であり、前記M個の窪みは、前記立体形状の側面に設けられ、そのうち2n個の窪みは、前記立体形状を上から見て180度間隔でペアになるように設けられるものであり、前記窪みには少なくとも1本のマイクロホンが設置されており、前記観測信号を補間合成することにより前記バイノーラル音を生成する補間合成部とを含む。
本発明によれば、上から見た形状が対称性を有する立体形状に上から見て180度間隔でペアになるような位置に設けられた窪みにマイクロホンを設置したマイクロホンアレイを用いて収音した観測信号から補間合成によりバイノーラル音を生成することにより、アレイ信号処理のパラメータの調整作業を行うことなく、観測信号からバイノーラル音を生成することが可能となる。
音源別収音を用いた頭部方向に応じたバイノーラル音の生成のイメージを示す図。 方向別収音を用いた頭部方向に応じたバイノーラル音の生成のイメージを示す図。 全天球映像音声視聴システムにおけるバイノーラル音の生成処理フローを示す図。 バイノーラル音生成システム900の構成を示すブロック図。 バイノーラル音生成装置400の構成を示すブロック図。 バイノーラル音生成装置400の動作を示すフローチャート。 マイクロホンアレイ410の立体形状の一例を示す図。 マイクロホンアレイ410の立体形状の一例を示す図。 マイクロホンアレイ410に全天球映像生成用カメラを内蔵した様子を示す図。 マイクロホンアレイ410のマイクロホンの設置位置の一例を示す図。 水平面におけるマイクロホンの選択の様子を示す図。 水平面における各マイクの重み係数のグラフを示す図。 水平方向と仰角方向の重みのグラフを示す図。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
非特許文献2は、精巧な耳介のモデルの代わりに、球状をしたマイクロホンアレイに設けた半球状の窪みにマイクロホンを設置するだけで音源定位に有用な情報が受音信号に含まれることを実験的に示している。そこで、この簡単な立体形状に設けた窪みにマイクロホンを設置するという簡易な方法を全方位収音に拡張し、当該収音信号から全天球映像に対応したバイノーラル音を仮想的に生成する方法について説明する。
以下、図5〜図6を参照してバイノーラル音生成装置400について説明する。図5は、バイノーラル音生成装置400の構成を示すブロック図である。図6は、バイノーラル音生成装置400の動作を示すフローチャートである。図5に示すようにバイノーラル音生成装置400は、マイクロホンアレイ410と、補間合成部420を含む。マイクロホンアレイ410は所定の位置に窪みがある所定の立体形状をしており、その窪みにM本のマイクロホン910−1〜910−Mが設置される。
マイクロホンアレイ410は、K個の音源が存在する音場の音声を収音し、M個の時間領域の観測信号を生成する(S410)。マイクロホンアレイ410の立体形状の一例は、球体、円柱である。また、厳密な球体・円柱ではなく、球体・円柱に近い形状であってもよい。全天球映像を視る際首を左右に振り回すことを考えると、一般に立体形状を上から見た形状が典型的には円のように点対称な図形、対称性を持つ図形の方がよい。
また、これらの立体形状の側面を90度間隔で窪ませることにより、窪みが構成される。この窪みは耳介を簡易にモデル化したものである。この窪みの形状は半球状といった単純な形状でよい。また、窪みは90度間隔に制限されるものではない。人間の耳の配置が上から見て左右対称であることを考慮して、マイクロホンの左右ペア(180度間隔のペア)を左右対称に側面に設置できるのであれば、例えば、60度、30度といった角度間隔(一般に、nを2以上の整数として、180/n度間隔)のようにどのような角度で窪みをつけてもよい。なお、90度間隔よりも狭めたほうが収音性能はよくなる。また、マイクロホンを左右ペアとして左右対称に設置できるのであれば、窪みを設置する間隔は厳密に180/n度間隔のように均一の間隔でなくてもよい。
首を左右に振る動作と人間の耳の配置を考慮すると、上から見て対称な立体形状に、マイクロホンの左右ペアを左右対称に設置するのが最も収音性能がよくなる。各窪みに1本のマイクロホンを設置することとすると、90度、60度、30度のときそれぞれ、4本、6本、12本のマイクロホンが設置されることになる。ただし、補間合成により受聴用の仮想バイノーラル音を生成することができるので、必ずしも左右ペアとなる2本のマイクロホンを左右対称に設置するのでなくてもよい。例えば、90度間隔で設けた4つの窪みのうち、3つの窪みについて各1本のマイクロホンを設置する構成としてもよい。また、残り1つについては実際には窪みになっていなくてもよい。
前後の顔の向き(耳の向き)を考慮して、各窪みに2本のマイクロホンを設置するようにしてもよい(図7(C)参照)。このように設置することにより、より高音質のバイノーラル音が再合成できるようになる。
さらに、首を上下に振る動作を考慮すると、立体形状の上面や下面にマイクロホンを設置するのがよい。なお、上面や下面にマイクロホンを設置する場合は、窪みは不要である。耳介をモデル化する必要がないからである。このように仰角方向にもマイクロホンを設置することでも、より高音質のバイノーラル音が再合成できるようになる。
このような窪みを備えた立体形状の例を図7、図8に示す。図7(A)、図8(A)はマイクロホンアレイの立体形状を上・下から見た図である。図7(B)、図8(B)はマイクロホンアレイの立体形状を正面(背面)・横から見た図である。図7(C)、図8(C)は窪みの形状、マイクロホンを設置する受音位置を示した図である。図7(A)〜(C)、図8(A)〜(C)における破線の半円あるいは実線の円が窪みを、小さい黒点が受音位置を示している。受音位置は、非特許文献2の図1の左図のように水平面上で前後、左右等に30度ずらしてもよい。図8(D)は図8(A)、(B)で示す立体形状の上面・下面の形状がどのように生成されるのか示したものである。図8(D)の実線部が立体形状の上面・下面の形状である。
図7、図8からわかるように上から見ても横から見ても上下、左右に対称性のある図形になっていることがわかる。また、マイクロホンアレイの立体形状は円柱や球体を組み合わせて構成されていることもわかる。図7、図8の立体形状は直径12cmの円柱がベースとなっているが、この立体形状が頭部形状を模擬することを考慮すると、直径16cm程度の球体に近い方がよい。なお、立体形状を上から見た形状の幅(円の場合は直径に相当するもの)の上限は、伝達遅延を考慮すると、25cm程度である。また、下限については、マイクロホンアレイを小型化することを考慮すると、5cm程度となる。つまり、幅は、5cm以上25cm以下にするとよい。
図7(C)、図8(C)をみればわかるように各窪みには、2本のマイクロホンが設置されている。これは、先述の通り、前後の顔の向きに応じてバイノーラル音を生成するためである。
また、水平方向の定位だけでなく、仰角方向の定位を付与するために立体形状の上面・下面にマイクロホンを設置してもよい。上面あるいは下面に1本のマイクロホンを設置するだけでもよい。もちろん、上面・下面にそれぞれ1本のマイクロホンを設置するのでもよい。図7、図8の立体形状では上面・下面に各3本のマイクロホンが設置されている。耳介を模擬する必要がないため、上面・下面にマイクロホンを設置する場合、窪みは必要ないのは先述の通りである。
なお、全天球映像生成用カメラは例えば図9に示すようにマイクロホンアレイ410に内蔵されていてもいいし、マイクロホンアレイ410とは別の場所に設置してあってもよい。
補間合成部420は、M個の時間領域の観測信号xm,t(1≦m≦M)を補間合成し、受聴用の仮想信号である時間領域のバイノーラル音b (Left)、b (Right)を生成する(S420)。具体的には、式(25)、式(26)を用いて補間合成を行う。
ここで、wm,Ψτ (Left)、wm,Ψτ (Right)は、 頭部方向Ψτ やマイクインデックスmによって変わる重み係数である。
以下、図10〜13を参照して補間に用いる重み係数の設計について説明する。ここでは、水平方向に90 度ごとに4箇所の窪みがあり、上面・下面に各1本のマイクロホンが設置されているマイクロホンアレイ410を用いて説明する。マイクロホンアレイ410は計10本のマイクロホンを用いて受音することになる。
図10は、マイクロホンの設置位置(受音位置)をマイクインデックスm(以下、Mic(m)と表す)を用いて示した図である。図10に示すように、Mic(1)とMic(2)がある窪み(図中の太線の半円) 方向を本マイクロホンアレイの正面(Azimuth=0°)とする。また、窪み中央を通る水平面を基準水平面(Elevation=0°)とする。なお、上面・下面に設置する各1本のマイクロホンはMic(10)とMic(13)に設置されるものとする。つまり、Mic(9)、Mic(11)、Mic(12)、Mic(14)にはマイクロホンを設置しない。
図11に、水平面におけるマイクロホンの選択の様子を示す。目が向いている方向(矢印で示す方向)が、ユーザの頭部方向に対応する。なお、Mic(1)〜Mic(8)の位置は変わらないものとする。例えば、上段の一番左の図では、目が0°の方向を向いており、このときMic(4)、Mic(7)を用いて観測されることになる。
図12に、水平面(横の動き)における各マイクの重み係数のグラフを示す。グラフに従い、各マイクロホンの重み係数を設定する。例えば、Mic(1)のグラフ(左上のグラフ)を見ると、−180°〜−90°では重み係数(グラフのWeight)が0から1に単調増大し、−90°〜0°では重み係数が1から0に単調減少、0°〜180°では重み係数がゼロになるように設定されることがわかる。
図13に、水平方向と仰角方向の重み係数(上下のマイクで受音した信号を重みづけ加算に用いる重み)のグラフを示す。水平方向と同様にグラフに従い、各重み係数を設定する。三つのグラフをあわせてみると、−90°〜90°において水平方向(Horizontal Signal)の重み係数、Mic(10)とMic(13)の仰角方向(Vertical Signal)の重み係数の和が1になるように設定されることがわかる。
なお、水平方向の重み係数(図12)、上下の定位感付与のための仰角方向の重み係数(図13)は厳格に設計する必要はない。あくまで頭部方向に応じて対応関係のとれる重み係数に設定されていればよい。
水平方向の重み係数と仰角方向の重み係数を用いて補間合成する方法について説明する。まず、頭部方向の水平角にある8本のマイクロホンで受音した信号をあらかじめ設定した重み係数に応じて合成する。次に、頭部方向の仰角に応じて先ほど合成した信号と上下方向にある2本のマイクロホンで受音した信号を重みづけ加算し、最終的な仮想バイノーラル音を得る。
頭部方向がΨτであるときのm番目のマイクロホンに対する重みwm,Ψτ (Left)、wm,Ψτ (Right)は上述のように計算できるので、音源分離処理を行うことなく、仮想的なバイノーラル音を生成することができる。
本実施形態では、マイクロホンアレイ410を用いてMチャネルの信号を観測し、補間合成部420でミックスダウン(補間合成)することで仮想的なバイノーラル音を生成する。これにより、バイノーラル音生成システム900で採用した音源強調法に存在する、収録対象の音の種類に対して最適値が変わるような潜在パラメータ群の調整作業を不要とすることができる。
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (7)

  1. マイクロホンを設置するM個(Mは3以上の整数)の窪みを備えるマイクロホンアレイを用いて収音した観測信号からバイノーラル音を生成するバイノーラル音生成装置であって、
    n、kをM=2n+k(n≧1、k=0または1)を満たす整数とし、
    前記マイクロホンアレイの立体形状を上から見た形状は、対称性を持つ図形であり、
    前記M個の窪みは、前記立体形状の側面に設けられ、そのうち2n個の窪みは、前記立体形状を上から見て180度間隔でペアになるように設けられるものであり、
    前記窪みには少なくとも1本のマイクロホンが設置されており、
    前記観測信号を補間合成することにより前記バイノーラル音を生成する補間合成部と
    を含むバイノーラル音生成装置。
  2. マイクロホンを設置するM個(Mは3以上の整数)の窪みを備えるマイクロホンアレイであって、
    n、kをM=2n+k(n≧1、k=0または1)を満たす整数とし、
    前記マイクロホンアレイの立体形状を上から見た形状は、対称性を持つ図形であり、
    前記M個の窪みは、前記立体形状の側面に設けられ、そのうち2n個の窪みは、前記立体形状を上から見て180度間隔でペアになるように設けられるものであり、
    前記窪みには少なくとも1本のマイクロホンが設置されることを特徴とするマイクロホンアレイ。
  3. 請求項2に記載のマイクロホンアレイであって、
    前記上から見た形状は円であることを特徴とするマイクロホンアレイ。
  4. 請求項2または3に記載のマイクロホンアレイであって、
    前記kはk=0を満たし、
    前記2n個の各窪みには2個のマイクロホンが設置されることを特徴とするマイクロホンアレイ。
  5. 請求項2ないし4のいずれか1項に記載のマイクロホンアレイであって、
    前記立体形状の上面または下面または上面・下面の各面に少なくとも1本のマイクロホンを設置することを特徴とするマイクロホンアレイ。
  6. マイクロホンを設置するM個(Mは3以上の整数)の窪みを備えるマイクロホンアレイを用いて収音した観測信号からバイノーラル音を生成するバイノーラル音生成装置におけるバイノーラル音生成方法であって、
    n、kをM=2n+k(n≧1、k=0または1)を満たす整数とし、
    前記マイクロホンアレイの立体形状を上から見た形状は、対称性を持つ図形であり、
    前記M個の窪みは、前記立体形状の側面に設けられ、そのうち2n個の窪みは、前記立体形状を上から見て180度間隔でペアになるように設けられるものであり、
    前記窪みには少なくとも1本のマイクロホンが設置されており、
    前記観測信号を補間合成することにより前記バイノーラル音を生成する補間合成ステップと
    を実行するバイノーラル音生成方法。
  7. 請求項1に記載のバイノーラル音生成装置としてコンピュータを機能させるためのプログラム。
JP2016023347A 2016-02-10 2016-02-10 バイノーラル音生成装置、マイクロホンアレイ、バイノーラル音生成方法、プログラム Active JP6569945B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016023347A JP6569945B2 (ja) 2016-02-10 2016-02-10 バイノーラル音生成装置、マイクロホンアレイ、バイノーラル音生成方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016023347A JP6569945B2 (ja) 2016-02-10 2016-02-10 バイノーラル音生成装置、マイクロホンアレイ、バイノーラル音生成方法、プログラム

Publications (2)

Publication Number Publication Date
JP2017143406A true JP2017143406A (ja) 2017-08-17
JP6569945B2 JP6569945B2 (ja) 2019-09-04

Family

ID=59628674

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016023347A Active JP6569945B2 (ja) 2016-02-10 2016-02-10 バイノーラル音生成装置、マイクロホンアレイ、バイノーラル音生成方法、プログラム

Country Status (1)

Country Link
JP (1) JP6569945B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020105632A1 (ja) * 2018-11-22 2020-05-28 日本電信電話株式会社 収音装置
CN114026880A (zh) * 2019-08-28 2022-02-08 脸谱科技有限责任公司 经由波束成形推断耳廓信息以产生个性化的空间音频

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5153801A (ja) * 1974-11-06 1976-05-12 Sony Corp
JPS5233720A (en) * 1975-09-10 1977-03-15 Sony Corp Stereo-microphone equiment
JP2003294822A (ja) * 2002-01-31 2003-10-15 Shibaura Institute Of Technology 3次元インテンシティプローブ、同プローブを用いた3次元音源方向検知装置、3次元音源方向対面制御装置、3次元インテンシティ測定方法及び装置
JP2006503526A (ja) * 2002-10-18 2006-01-26 ザ リージェンツ オブ ザ ユニヴァーシティー オブ カリフォルニア 動的なバイノーラルサウンドの取込及び再生
JP2007312181A (ja) * 2006-05-19 2007-11-29 Victor Co Of Japan Ltd 撮像収音信号再生システム
JP2011232238A (ja) * 2010-04-28 2011-11-17 Nidec Copal Corp 音源方向推定装置
JP2013009112A (ja) * 2011-06-23 2013-01-10 National Institute Of Advanced Industrial & Technology 収音再生装置、プログラム及び収音再生方法
JP2013545382A (ja) * 2010-10-28 2013-12-19 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 方向情報を取得する装置および方法、ならびにシステムおよびコンピュータプログラム
JP2014093578A (ja) * 2012-10-31 2014-05-19 Denso Corp 運転サポート装置
JP2016046699A (ja) * 2014-08-25 2016-04-04 株式会社 ゼネテック 画像音声入出力システム

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5153801A (ja) * 1974-11-06 1976-05-12 Sony Corp
JPS5233720A (en) * 1975-09-10 1977-03-15 Sony Corp Stereo-microphone equiment
JP2003294822A (ja) * 2002-01-31 2003-10-15 Shibaura Institute Of Technology 3次元インテンシティプローブ、同プローブを用いた3次元音源方向検知装置、3次元音源方向対面制御装置、3次元インテンシティ測定方法及び装置
JP2006503526A (ja) * 2002-10-18 2006-01-26 ザ リージェンツ オブ ザ ユニヴァーシティー オブ カリフォルニア 動的なバイノーラルサウンドの取込及び再生
JP2007312181A (ja) * 2006-05-19 2007-11-29 Victor Co Of Japan Ltd 撮像収音信号再生システム
JP2011232238A (ja) * 2010-04-28 2011-11-17 Nidec Copal Corp 音源方向推定装置
JP2013545382A (ja) * 2010-10-28 2013-12-19 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 方向情報を取得する装置および方法、ならびにシステムおよびコンピュータプログラム
JP2013009112A (ja) * 2011-06-23 2013-01-10 National Institute Of Advanced Industrial & Technology 収音再生装置、プログラム及び収音再生方法
JP2014093578A (ja) * 2012-10-31 2014-05-19 Denso Corp 運転サポート装置
JP2016046699A (ja) * 2014-08-25 2016-04-04 株式会社 ゼネテック 画像音声入出力システム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020105632A1 (ja) * 2018-11-22 2020-05-28 日本電信電話株式会社 収音装置
JP2020088561A (ja) * 2018-11-22 2020-06-04 日本電信電話株式会社 収音装置
JP7205192B2 (ja) 2018-11-22 2023-01-17 日本電信電話株式会社 収音装置
US11595756B2 (en) 2018-11-22 2023-02-28 Nippon Telegraph And Telephone Corporation Sound collecting apparatus
CN114026880A (zh) * 2019-08-28 2022-02-08 脸谱科技有限责任公司 经由波束成形推断耳廓信息以产生个性化的空间音频

Also Published As

Publication number Publication date
JP6569945B2 (ja) 2019-09-04

Similar Documents

Publication Publication Date Title
US10939225B2 (en) Calibrating listening devices
CN106664501B (zh) 基于所通知的空间滤波的一致声学场景再现的系统、装置和方法
EP2719200B1 (en) Reducing head-related transfer function data volume
KR20210088736A (ko) 환경 데이터를 사용한 오디오 증강
CN105323684A (zh) 声场合成近似方法、单极贡献确定装置及声音渲染系统
Salvador et al. Design theory for binaural synthesis: Combining microphone array recordings and head-related transfer function datasets
US20220232342A1 (en) Audio system for artificial reality applications
JP2017046322A (ja) 信号処理装置及びその制御方法
CN116671132A (zh) 利用空间元数据内插和源位置信息的音频渲染
Sakamoto et al. 3d sound-space sensing method based on numerous symmetrically arranged microphones
JP6834985B2 (ja) 音声処理装置および方法、並びにプログラム
JP6569945B2 (ja) バイノーラル音生成装置、マイクロホンアレイ、バイノーラル音生成方法、プログラム
WO2017119320A1 (ja) 音声処理装置および方法、並びにプログラム
CN113766396B (zh) 扬声器控制
WO2017119321A1 (ja) 音声処理装置および方法、並びにプログラム
Geronazzo et al. Superhuman hearing-virtual prototyping of artificial hearing: a case study on interactions and acoustic beamforming
JP6993433B2 (ja) 集音方法、装置及び媒体
KR102284811B1 (ko) 인코히어런트 멱등 앰비소닉스 렌더링
Sakamoto et al. A 3D sound-space recording system using spherical microphone array with 252ch microphones
CN111246345B (zh) 一种远程声场实时虚拟重现的方法与装置
JP2024512347A (ja) 仮想スピーカセットを決定するための方法および装置
JP2019075616A (ja) 音場収録装置及び音場収録方法
WO2019174442A1 (zh) 拾音设备、声音输出方法、装置、存储介质及电子装置
Sakamoto et al. SENZI and ASURA: New high-precision sound-space sensing systems based on symmetrically arranged numerous microphones
JP6526582B2 (ja) 再合成装置、再合成方法、プログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160212

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180315

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20180315

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190325

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190723

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190725

R150 Certificate of patent or registration of utility model

Ref document number: 6569945

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350