JP2021197566A

JP2021197566A - 音源分離装置、音源分離方法、およびプログラム

Info

Publication number: JP2021197566A
Application number: JP2020100287A
Authority: JP
Inventors: 一博中臺; Kazuhiro Nakadai; 知鍾; Chin Chung; 克寿糸山; Katsutoshi Itoyama; 健次西田; Kenji Nishida
Original assignee: Honda Motor Co Ltd; Tokyo Institute of Technology NUC
Current assignee: Honda Motor Co Ltd; Tokyo Institute of Technology NUC
Priority date: 2020-06-09
Filing date: 2020-06-09
Publication date: 2021-12-27
Anticipated expiration: 2040-06-09
Also published as: JP7316614B2

Abstract

【課題】面音源を分離することができる音源分離装置、音源分離方法、およびプログラムを提供することを目的とする。【解決手段】音源分離装置は、音響信号を収音する、第１間隔で配置されるＮ（Ｎは２以上の整数）個のマイクロホンを有するマイクロホンアレイと、所望の領域を第２間隔で細分化し、細分化した領域それぞれに対して、マイクロホンアレイによって収音された音響信号を、細分化した領域の方位角θに対応するサブビームを用いてビームフォーミング法によって分離して抽出し、抽出した音響信号を加算することにより所望の領域の音響信号を分離する音源分離部と、を備える。【選択図】図１

Description

本発明は、音源分離装置、音源分離方法、およびプログラムに関する。

マイクロホンアレイで収音した音響信号に対して、ビームフォーミング等の処理を行うことで、複数の音源が混在した観測信号から、特定の音源のみを取り出す音源分離を行うことができる（例えば特許文献１参照）。

これらの音源分離処理では、音源が点音源であることが前提として理論が構築されている。通常の音源は面音源であるため、従来は、面音源を点音源であるものとして分離処理を行っていた。従来は、面音源を疑似的に音源分離するために、遅延和ビームフォーミングやエコーキャンセルといったビーム（指向性）を広くとる手法が用いられてきた。

特開２０１５−４６７５９号公報

しかしながら、従来技術では、指向性の細かい制御が難しく、例えば抑圧したい領域にある音源を抽出してしまう、面の形状が四角やより複雑な形状である音源には対応できないといった問題があった。

本発明は、上記の問題点に鑑みてなされたものであって、面音源を分離することができる音源分離装置、音源分離方法、およびプログラムを提供することを目的とする。

（１）上記目的を達成するため、本発明の一態様に係る音源分離装置は、音響信号を収音する、第１間隔で配置されるＮ（Ｎは２以上の整数）個のマイクロホンを有するマイクロホンアレイと、所望の領域を第２間隔で細分化し、前記細分化した領域それぞれに対して、前記マイクロホンアレイによって収音された音響信号を、前記細分化した領域の方位角θに対応するサブビームを用いてビームフォーミング法によって分離して抽出し、前記抽出した音響信号を加算することにより前記所望の領域の音響信号を分離する音源分離部と、を備える。

（２）また、本発明の一態様に係る音源分離装置において、前記サブビームのパターンは、次式で表され、

上式において、Ｄ（θ）は音源の開始方位角θ_ｂ以上源の終了方位角θ_ｅ以下の場合に１であり他の方位角で０である所望の領域の音響信号を分離するための理想的なフィルタであり、Ｐ_θｉはθ_ｉ方向にビームの指向性を向けた場合の点音源を対象としたビームフォーマの指向特性であり、θ_ｉは各ビームフォーマの指向性の方向であり、Ｈはエルミート共役を意味し、ａ（θ）は音源か前記マイクロホンへの伝達関数であり、Ｗ_θｉはビームフォーマＰ_θｉの係数ベクトルであり、この場合の面音源のビームフォーマの係数Ｗは次式であり、

Ｄ（θ）を次式としたとき、

θ_ｉ＝θ_ｂ＋（ｉ−１）θ_ｓｃａｎと定義でき、ｂはθ_ｉ＝θ_ｂとなるｉの値であり、ｅはθ_ｉ＝θ_ｅとなるｉの値を示す、ようにしてもよい。

（３）また、本発明の一態様に係る音源分離装置において、コスト関数Ｊと、前記マイクロホンの数と、前記第２間隔と、の関係を算出する評価部と、前記評価部が算出した前記コスト関数と、前記マイクロホンの数と、前記第２間隔と、の関係において、コスト関数が最小になる前記マイクロホンの数と、前記第２間隔を選択する選択部と、をさらに備えるようにしてもよい。

（４）また、本発明の一態様に係る音源分離装置において、前記評価部は、ビームパターンと理想的なパターンの違いを次式の対数平均二乗誤差ＭＳＥを用いて算出し、

次式を用いて前記コスト関数Ｊを算出し、算出した前記コスト関数Ｊと、前記マイクロホンの数Ｎと、スキャン角度θ_ｓｃａｎに基づいて、前記所望の領域の音響信号を分離するための最適な前記マイクロホンの数Ｎと、スキャン角度θ_ｓｃａｎを求め、

上式において、αは所定値であり、λ_１、λ_２それぞれは調整パラメーターである、ようにしてもよい。

（５）また、本発明の一態様に係る音源分離装置において、前記評価部は、前記コスト関数Ｊと、前記マイクロホンの数Ｎと、スキャン角度θｓｃａｎを三次元グラフに表し、前記コスト関数Ｊが最小となる前記マイクロホンの数Ｎと、スキャン角度θｓｃａｎを選択することで、最適な前記マイクロホンの数Ｎと、スキャン角度θｓｃａｎを求め、前記音源分離部は、前記評価部によって選択された最適な前記マイクロホンの数Ｎと、スキャン角度θｓｃａｎに更新する、ようにしてもよい。

（６）上記目的を達成するため、本発明の一態様に係る音源分離方法は、第１間隔で配置されるＮ（Ｎは２以上の整数）個のマイクロホンを有するマイクロホンアレイが、音響信号を収音し、音源分離部が、所望の領域を第２間隔で細分化し、前記音源分離部が、前記細分化された領域それぞれに対して、音響信号を、前記細分化した領域の方位角θに対応するサブビームを用いてビームフォーミング法によって分離して抽出し、前記音源分離部が、前記抽出された音響信号を加算することにより前記所望の領域の音響信号を分離する。

（７）上記目的を達成するため、本発明の一態様に係るプログラムは、コンピュータに、第１間隔で配置されるＮ（Ｎは２以上の整数）個のマイクロホンを有するマイクロホンアレイに音響信号を収音させ、所望の領域を第２間隔で細分化させ、前記細分化された領域それぞれに対して、前記細分化された領域の方位角θに対応するサブビームを用いてビームフォーミング法によって前記音響信号を分離して抽出させ、前記抽出された音響信号を加算することにより前記所望の領域の音響信号を分離させる。

上述した（１）〜（７）によれば、抑圧したい領域にある音源を適切に抑圧することができ、面音源を分離することができる。
上述した（２）によれば、細分化した領域毎にサブビームフォーマを用いて、ビームフォーミング法によって細分化した領域の音響信号を収音された音響信号から抽出でき細分化された領域毎に抽出した音響信号を加算することで、所望の面音源を分離できる。
上述した（３）〜（５）によれば、コスト関数Jを用いることで、面音源を抽出するための最適なマイクロホンの数、所望の領域を分割する間隔を選択することができる。

実施形態に係る音源分離システムの構成例を示すブロック図である。実施形態に係るマイクロホンの配置例を示す図である。実施形態で用いるビームフォーマを説明するための図である。評価に用いたマイクロホンアレイのセッティングと分離目標の面音源の関係を示す図である。分離目標の面音源を抽出し、周囲のノイズを抑圧するための設定例である。適応ＭＶＤＲのビームフォーマ例を示す図である。図６の適応ＭＶＤＲのビームフォーマを用いた場合のＭＳＥ曲面である。ＤＳのビームフォーマを示す図である。図８のＤＳのビームフォーマを用いた場合のＭＳＥ曲面である。分離目標の面音源の設定例を示す図である。サブビームフォーマがＤＳスキャンアンドサムビームフォーマのＭＳＥ曲面を示す図である。サブビームフォーマがＤＳスキャンアンドサムビームフォーマのコスト曲面を示す図である。ウイナービームフォーミングとスキャンアンドサムビームフォーマそれぞれのパターン例を示す図である。サブビームフォーマがＭＶＤＲスキャンアンドサムビームフォーマのＭＳＥ曲面を示す図である。サブビームフォーマがＭＶＤＲスキャンアンドサムビームフォーマのコスト曲面を示す図である。推奨設定での合成したＭＶＤＲスキャンアンドサムビームフォーマのパターンを示す図である。低密度スキャンを選択した場合のビームパターンの例を示す図である。３つの異なるバッファサイズの評価結果を示す図である。実施形態に係る分離された面音源の例を示す図である。

以下、本発明の実施の形態について図面を参照しながら説明する。なお、以下の説明に用いる図面では、各部材を認識可能な大きさとするため、各部材の縮尺を適宜変更している。また、本実施形態では、特定領域の音響信号を面音源という。

図１は、本実施形態に係る音源分離システム１の構成例を示すブロック図である。音源分離システム１は、収音部２、および音源分離装置３を備える。
収音部２は、Ｎ（Ｎは２以上の整数）のマイクロホン２１−１、…、マイクロホン２１−Ｎを備える。なお、以下の説明において、マイクロホン２１−１、…、マイクロホン２１−Ｎのうち１つを特定しない場合は、マイクロホン２１という。
音源分離装置３は、取得部３１、伝達関数記憶部３２、ビームパターン記憶部３３、音源分離部３４、および出力部３５を備える。
音源分離部３４は、分離部３４１、評価部３４２、および選択部３４３（評価部）を備える。

収音部２は、ｎ個のマイクロホン２１を備えるマイクロホンアレイである。収音部２は、音源が発した音響信号を収音し、収音したｎチャネルの音響信号を取得部３１に出力する。なお、マイクロホン２１の配置については、後述する。

取得部３１は、収音部２が出力するアナログのｎチャネルの音響信号を取得し、取得したアナログの音響信号をデジタルの音響信号に変換する。なお、収音部２のｎ個のマイクロホン２１それぞれが出力する音響信号は、同じサンプリング周波数の信号を用いてサンプリングが行われる。取得部３１は、デジタルに変換した音響信号を音源分離部３４に出力する。

伝達関数記憶部３２は、到来方向を引数とする関数として表現してモデル化された伝達関数を、収音部２が備えるマイクロホン２１毎に格納する。

ビームパターン記憶部３３は、サブビームパターンを記憶するようにしてもよい。なお、サブビームパターンについては後述する。

音源分離部３４は、所望の領域の音響信号を分離し、分離した所望の領域の音響信号を出力部３５に出力する。音源分離部３４は、分離に用いたビームパターンを評価する。音源分離部３４は、評価した結果に基づいて、マイクロホン２１の数、所望の領域を分割する間隔を選択する。なお、所望の領域は、分離したい面音源が存在する領域を含む領域である。

分離部３４１は、所望の領域を等間隔で細分化する。音源分離部３４は、細分化した領域毎にサブビームフォーマを用いて、ビームフォーミング法によって細分化した領域の音響信号を収音された音響信号から抽出する。音源分離部３４は、細分化された領域毎に抽出した音響信号を加算することで、所望の面音源を分離する。なお、分離部３４１は、マイクロホン２１の数、所望の領域を分割する間隔を自部が記憶する初期値に設定する。分離部３４１は、選択部３４３が出力する選択結果に基づいて、マイクロホン２１の数、所望の領域を分割する間隔を更新するようにしてもよい。

評価部３４２は、選択したビームパターンの品質を、パフォーマンスとコストのバランスをとるコスト関数Ｊを備えたＭＳＥ（対数平均二乗誤差（ＭｅａｎＳｑｕａｒｅＥｒｒｏｒ））を用いて評価する。評価部３４２は、評価した評価結果を選択部３４３に出力する。なお、コスト関数Ｊ、ＭＳＥ、評価方法については後述する。

選択部３４３は、評価部３４２が評価した評価結果に基づいて、マイクロホン２１の数、所望の領域を分割する間隔を選択する。選択部３４３は、後述するようにコスト関数Ｊ、マイクロホン２１の数、所望の領域を分割する間隔を三次元グラフで表し、このグラフにおいて最小値を検出することで、マイクロホン２１の数、所望の領域を分割する間隔を選択する。選択部３４３は、選択した建託結果を分離部３４１に出力する。

出力部３５は、例えばスピーカーである。出力部３５は、音源分離部３４が分離した所望の領域の音響信号を出力する。

＜マイクロホンの配置例＞
次に、マイクロホン２１の配置例を説明する。
図２は、本実施形態に係るマイクロホン２１の配置例を示す図である。Ｎ個のマイクロホン２１は、間隔（第１間隔）がｄ毎に等間隔で、２１−１，２−２，…，２１−（Ｎ−１）、２１−（Ｎ−１）の順に、例えば直線ｇ１１上に配置されている。一端のマイクロホン２１−１を参照マイクロホンとする。なお、マイクロホン２１の個数Ｎ、間隔ｄは、例えば後述するコスト等に応じて選択するようにしてもよい。

Ｎ個のマイクロホン２１は、全て無指向性のマイクロホンである。音源とマイクロホン２１との距離は、音源からの信号が平面波としてマイクロホン２１に入力される距離が望ましい。
符号ｇ１２は、マイクロホン２１に入力される平面波を表している。方位角θは、マイクロホン２１が配置される直線ｇ１１と、入力される平面波ｇ１２とのなす角であり、反時計回りに増加するとする。音波の音速をｃ（３４０．２９ｍ／ｓ）で表す。

音源からの信号は、次式（１）のように表されるａ（θ，ｆ）∈Ｃ^Ｎ×１（Ｃは複素数全体の集合）で示される位相シフトベクトル（ｐｈａｓｅ−ｓｈｉｆｔｖｅｃｔｏｒ）で表される伝達関数を介してマイクロホンアレイである収音部２に伝播される。この伝達関数は、伝達関数記憶部３２が記憶する。

式（１）において、Ｔは転置行列を表す。τは、マイクロホンアレイ内の隣接する２つのマイクロホン２１間の遅延時間であり、τ＝（ｄ・ｃｏｓθ）／ｃである。また、ｆは、入力信号の異なる周波数成分であり、ｆ＝ω／２πである。以下の説明では、説明を簡単にするため、ｆを省略する。

ｉ番目の受信される点音源（ｐｏｉｎｔｓｏｕｒｃｅ）は、Ｚ_ｉ＝ａ_ｉＳ_ｉである。ここで、ａ_ｉは、ｉ番目の点音源の到来方向（ＤＯＡ）に焦点を当てた伝達関数である。マイクの熱雑音のような空間的白色雑音は、Ｖ∈Ｃ^Ｎ×１として表される。
また、混合信号Ｚ∈Ｃ^Ｎ×１は、次式（２）のように表すことができる。

式（２）において、Ｓ＝［Ｓ_１，Ｓ_２，…，Ｓ_Ｎｓｉｇ］^Ｔであり、Ｎ_ｓｉｇは信号の数である。Ａは、個々の点音源を混合するためのマルチチャネルの音声信号であり、Ａ＝［ａ_１，ａ_２，…，ａ_Ｎｓｉｇ］は混合行列である。

＜点音源のビームフォーマの基本式＞
次に、点音源のビームフォーマの基本式について説明する。
ビームフォーマは、係数ベクトルＷ∈Ｃ^{Ｎｃｈ×１}で表される。ビームフォーマの方向周波数応答は、次式（３）のように定義される「パターン」である。

式（３）において、Ｈはエルミート共役を意味し、θ_ＤＯＡは目標音源到来方向（ｆｏｃｕｓＤＯＡ）を表す。また、下付表示のＤＯＡは、フォーカス到来方向の設計パラメーターを表す。ａ（θ）は、式（１）の伝達関数においてｆを省略したものである。変数は信号の入力方向を表す。異なる方向からの信号入力の選択は、ビームフォーマにおける指向性である。

＜スキャンアンドサム（ＳＣＡＮ−ＡＮＤ−ＳＵＭ）ビームフォーマ＞
次に、本実施形態で用いるスキャンアンドサムビームフォーマについて説明する。
本実施形態では、１つのビームフォーマで面ビームパターンを設計する代わりに、点音源のサブビームフォーマをフォーカス到来方向に変更し、目的の面音源が存在する領域を適切なスキャン角度でスキャンする。本実施形態では、このサブビームフォーマを、面ビームフォーマに統合する。本実施形態では、この手法をスキャンアンドサムビームフォーマ法（またはスキャンアンドサム法）と呼ぶ。

図３は、本実施形態で用いるビームフォーマを説明するための図である。図３において、横軸は到来方向θ［度］であり、縦軸は利得（２０ｌｏｇ｜Ｐ_θＤＯＡ｜）［ｄＢ］である。符号ｇ２１のパターンは、比較例のＭＶＤＲ（ＭｉｎｉｍｕｍＶａｒｉａｎｃｅＤｉｓｔｏｒｔｉｏｎｌｅｓｓＲｅｓｐｏｎｓｅ；最小分散無歪応答法）スキャンのビームパターンである。符号ｇ２２のパターンは、本実施形態で用いるスキャンアンドサム法（ｓｃａｎ−ａｎｄ−ｓｕｍｍｅｔｈｏｄ）のビームパターンである。符号ｇ２３のパターンは、面音源に対する理想的なビームパターンである。なお、ＭＶＤＲの場合は、目的音源を歪ませない線形拘束条件の下で、出力パワーを最小化するような分離行列を求めることで音源分離を行う。また、図３に示したスキャンアンドサム法のビームパターンは一例であり、これに限らない。
なお、スキャンアンドサム法は、面音源が多数の点音源の組み合わせに分解できるというモデルに基づいている。

パラメーター設定の例として、すべてのパターンと解析の分析は、例えばｄ＝２ｃｍ、Ｎ＝２０、ｆ＝２ｋＨｚで行った。このため、マイクロホンアレイの長さは４０ｃｍである。

＜スキャンアンドサムビームフォーマの式＞
次に、スキャンアンドサムビームフォーマで用いる式について説明する。
理想的なパターンＤ（θ）は、次式（４）のような方位角次元である。

式（４）において、θ_ｂは面音源の開始方位角であり、θ_ｅは面音源の終了方位角である。一連のＤＯＡｓ（θ_ｉ）に焦点を合わせた既知の点音源のビームフォーマのパターンは、Ｐ_θｉとして示される。ここで、θ_ｉは、各ビームフォーマの指向性の方向であり、θ_ｉ＝θ_ｂ＋（ｉ−１）θ_ｓｃａｎである。θ_ｓｃａｎは、スキャン角度（第２間隔）である。また、ｂはθ_ｉ＝θ_ｂとなるｉの値であり、ｅはθ_ｉ＝θ_ｅとなるｉの値を示す。
本実施形態で用いるスキャンアンドサムビームフォーマの式は、次式（５）のように表される。

式（５）において、Ｐ_θｉは、θ_ｉにおけるビームフォーマの指向特性である。Ｐ_θは、θ方向にビームの指向性を向けた場合の点音源を対象としたビームフォーマの指向特性である。なお、実施形態では、最大応答を０ｄＢに正規化した。
なお、式（５）から，Ｐ（θ）はＰ_θｉ（θ）をｅ−ｂ＋１個加算した関数であることから、θ_ｓｃａｎの関数であり，これを明示的に示すために、Ｐ_{θｓｃａｎ}（θ）と表すこととすれば、スキャンアンドサムビームフォーマは、次式（６）のように表すこともできる。

式（６）において、Ｐ_θｉ（θ）（ｉ＝１，２，…）は、方位角θ_ｉ方向に指向性があるサブビームフォーマのパターンである。式（５）または式（６）のように、スキャンアンドサムビームフォーマは、複数のサブビームのパターンを合成することで、理想的なパターンに近いビームパターンを実現する。なお、サブビームパターンとは、図３の符号ｇ２１１の鎖線のように、所定の方位角毎のパターンである。また、Ｎ_Ｓは、ｅ−ｂ＋１である。
また、式（３）と式（５）より、スキャンアンドサムビームフォーマの係数ベクトルＷは、次式（７）のように表される。

式（６）は加算する際の重みＢ＝［ｂ_１，ｂ_２，…，ｂ_ｉ，…，ｂ_ＮＳ］を考慮して、次式（８）としてもよい。

この場合、Ｐ（θ）とＤ（θ）の平均二乗誤差（ＭＳＥ）を最小化する問題を解くことによって，次式（９）として一意に求めることができる。

ただし、Ｑ（θ）＝［ｐ_φ１（θ），ｐ_φ２（θ），…，ｐ_φｉ（θ），…，ｐ_φＮＳ（θ）］とする。

＜エラー分析の基準＞
次に、エラー分析の基準について説明する。
スキャンアンドサムのパターンが、目的のパターンを正確に近似しているかを確認するため、スキャンアンドサムビームパターンと理想的なパターンの違いを評価する。式（６）より、Ｐ_θｉ（θ）はマイクロホン数Ｎの関数であり、かつ、このφ_ｉの間隔はθ_ｉの間隔と同じθ_ｓｃａｎであることから、Ｐ（θ）はＮおよびθ_ｓｃａｎの関数となる。これを明示的に示すため、Ｐ（θ）をＰ_{Ｎ，θｓｃａｎ}（θ）と再定義する。このとき，評価のための基準のＭＳＥ（ＭｅａｎＳｑｕａｒｅＥｒｒｏｒ；平均二乗誤差）は、次式（１０）のように定式化できる。

ＭＳＥは、マイクロホンの数Ｎとスキャン角度θ_ｓｃａｎの２つの変数を用いて求められる。

図４は、評価に用いたマイクロホンアレイのセッティングと分離目標の面音源の関係を示す図である。方位が約７５〜１０５度は分離目標の面音源（ｇ３１）であり、方位が約４５〜７５度は第１の干渉波（ｇ３２）であり、方位が約１０５〜１３５度は第２の干渉波（ｇ３３）である。干渉波は、例えば抽出したい面音源の周囲から発せられるノイズである。評価の条件は、マイクロホン２１の間隔が２ｃｍ、ｆ＝２ｋＨｚ、マイクロホン数を２０、スキャン角度θ_ｓｃａｎを０．９２度で行った。また、評価に用いた音源は、マイクロホンから遠方にあるファーフィールドであり、面音源である。

また、ＦをＦＦＴ（高速フーリエ変換）における周波数のスライスセットとし、｜Ｆ｜をＦの集合の濃度（ｃａｒｄｉｎａｌｉｔｙ）であるとする。音源が存在する領域の誤差を重視し、式（１０）を次式（１１）のように表すことにする。

式（９）において、図５のようにΘ_ｉｔｆは図４の第１、および第２の干渉波の存在範囲の角度であり、Θ_ｔａｒは図４の目的音源の存在範囲の角度である。図５は、分離目標の面音源を抽出し、周囲のノイズを抑圧するための設定例である。また、図６は、適応ＭＶＤＲのビームフォーマ例を示す図である。図７は、図６の適応ＭＶＤＲのビームフォーマを用いた場合のＭＳＥ曲面である。図５と図６において、横軸は角度（度）、縦軸は利得（ｄＢ）である。図７において、紙面の横方向の軸はマイクロホンの数Ｎ（個）であり、奥行き方向の軸はスキャン角度θ_ｓｃａｎ（度）であり、縦方向の軸は対数ＭＳＥである。

図６のように、適応ＭＶＤＲのビームフォーマのパターンは、分離目標の面音源と干渉波との利得差は約１０ｄＢである。そして、図７のように、ＭＳＥは、マイクロホン数Ｎを１００、スキャン角度を０度に近づけても−２０程度であった。また、マイクロホン数Ｎを１００にした場合であっても、スキャン角度が広がると、ＭＳＥは−５程度であった。

図８は、ＤＳ（ＤｅｌａｙａｎｄＳｕｍ）のビームフォーマを示す図である。図９は、図８のＤＳのビームフォーマを用いた場合のＭＳＥ曲面である。図８において、横軸は角度（度）、縦軸は利得（ｄＢ）である。図９において、紙面の横方向の軸はマイクロホンの数Ｎ（個）であり、奥行き方向の軸はスキャン角度θ_ｓｃａｎ（度）であり、縦方向の軸は対数ＭＳＥである。

図８のように、ＤＳビームフォーマのパターンは、分離目標の面音源と干渉波との利得差は、３０度離れた角度であっても６ｄＢ程度である。そして、図９のように、ＭＳＥは、マイクロホン数Ｎを１００、スキャン角度を０度に近づけても−１０程度であった。また、マイクロホン数Ｎを１００にした場合であっても、スキャン角度が広がると、ＭＳＥは−７程度であった。

＜評価に用いるコスト＞
ここで、マイクロホンの数（Ｎ）は物理的なコストと見なすことができる。この理由は、マイクロホンの数が増えると、それを収容するためにより大きな装置を必要とし、多くのハードウェアが必要になるためである。
式（５）において、サブビームフォーマの数（Ｎ_Ｓ）がスキャン角度に反比例するため、スキャン角度（θ_ｓｃａｎ）は計算コストと見なすことができる。さらにＰ_θｉを計算する必要がある。

一般に、コストが増加するとパフォーマンスが向上する。完全に単調ではないが、ＭＳＥは、マイクロホン数Ｎの増加またはスキャン角度θ_ｓｃａｎの減少とともに改善する。一般に、ＭＳＥを最小化すると、非現実的で許容できないコストが発生するため、パフォーマンスとコストの両方を均一に測定するために、次式（１２）のコスト関数Ｊを導入する。

式（１２）において、αは所定値であり、λ_ｉ（ｉ＝１，２）は、調整パラメーターである。以下の評価ではλ_１＝０．０１５９、λ_２＝０．０００１５９，α＝０．２，ＭＳＥｍａｘ＝５０とした。また、式（１２）において、予想されるパフォーマンスが含まれるＭＳＥ曲面のスライスと、Ｎ、θ_ｓｃａｎの領域の両方を扱う。ＭＳＥとコストの値は広範囲にわたって変化するため、重みとして機能するλ_ｉ（ｉ＝１，２）が必要である。

式（１０）の３項目と４項目は、正規化されたコストである。ここで、λ_２は、実用的なマイクの最大数を正規化するために選択する（たとえば、１／１００＝０．０１）。同様に、λ_３は、考慮可能な最小スキャン角度として選択する（たとえば、０．０１°）。
ＭＳＥのスライス間の重み付け（最初の２項目）およびコスト領域（最後の２項目）は、λ_ｉ（ｉ＝１，２，３）の値を変更することで調整できる。
パフォーマンスとコストのトレードオフは最適化の問題は、次式（１３）のように表すことができる。

なお、ａｒｇｍｉｎＪ（ｘ）は、Ｊ（ｘ）を最小にするｘの集合である。
本実施形態によれば、コスト関数Ｊの導入によって、面音源を抽出するための最適なマイクロホンの数、所望の領域を分割する間隔を選択することができる。

＜最適化とパラメーターの調整＞
本実施形態のスキャンアンドサムビームフォーマを実装および最適化する方法に関するガイドラインは以下である。

Ｉ．マイクロホンアレイのタイプは、カバーする必要があるスペース範囲に従って決定する。例えば、方位角３６０度をカバーしたい場合は円形マイクロホンアレイを選択する。理想的なパターンは、前提条件のローカリゼーション情報に従って、式（４）によって決定する。

ＩＩ．利用者には、さまざまなタイプのサブビームフォーマを選択する柔軟性がある。ただし、利用者は、アプリケーションシナリオに合わせて慎重に選択する必要がある。例えば、強いノイズ環境では、ＤＳサブビームフォーマが適している場合がある。

ＩＩＩ．スキャンアンドサムのビームパターンの合成後、ＭＳＥ曲面はグリッドのセット、例えば対数スケールにおいてＮ∈［６，１００］、θ_ｓｃａｎ∈［０．０１，１０］の範囲のグリッドで計算できる。

ＩＶ．ＭＳＥ、マイクロホン数Ｎ、スキャン角度θ_ｓｃａｎ空間の最小点をグリッド検索アルゴリズムによって決定できるように、コスト関数Ｊに展開する。

Ｖ．コスト関数によって決定された設定のスキャンアンドビームフォーマは、結果を確認するために、例えばウイナーフィルタおよび理想的なパターンと比較し、数値評価も行うことが望ましい。

最適化問題の分析的解決は困難であるが、最適な理論的解決策を調べてから、それに近似する実用的な解決策を見つけることが望ましい。最適な適応フィルタとして知られるウイナーフィルタは、混合物の空間相関情報と理想的な参照信号の両方を必要とする。利用者は通常、参照として機能するターゲット信号を所有していないため、ウイナーフィルタは実用的ではない。スキャンアンドサムビームフォーマとウイナーフィルタを比較すると、本実施形態のスキャンアンドサムビームフォーマが最適解の適切な近似値である。

適応設計では、面音源の位置が異なると、適応サブビームフォーマのパターンがわずかに異なる。図１と異なる面音源の設定を図１０に示す。図１０は、分離目標の面音源の設定例を示す図である。図１０に示す例では、分離目標の面音源（ｇ３１）と２つの干渉波（ｇ３２、ｇ３３）が存在する。面音源（ｇ３１）と第１の干渉波（ｇ３２）の間には、方位角で３０度を占めるバッファ空間（ｇ３５）が設けられている。面音源（ｇ３１）と第２の干渉波（ｇ３３）の間には、方位角で３０度を占めるバッファ空間（ｇ３６）が設けられている。

以下の説明において、すべてのＭＳＥとコスト曲面は、バッファ空間無しで計算した例を説明する。

（第１の例）
第１の例では、ＤＳサブビームフォーマのＰ_θｉを選択した例を説明する。
ＤＳサブビームフォーマは、空間フィルタの中で最も基本的であり、実装の単純さと強いノイズに対する堅牢性に特化しているが、信号機能に適応しないためＤＳ設計は一般に最適ではない。

図１１は、サブビームフォーマがＤＳスキャンアンドサムビームフォーマのＭＳＥ曲面を示す図である。紙面の横方向の軸はマイクロホンの数Ｍ（個）であり、奥行き方向の軸はスキャン角度間隔Δθ（度）であり、縦方向の軸は対数ＭＳＥである。なお、図１１は、Ｎ∈［２，５０］で３個おきに、θ_ｓｃａｎ∈［０．０１，１０］内で、対数スケールで計算した結果である。図１１のＭＳＥ曲面は、マイクロホン数Ｎ、スキャン角度間隔Δθの変化によって、変化が単調であり、最小値が見つけにくい。このため、ＤＳスキャンアンドサムビームフォーマにおいては、マイクロホン数Ｎ、スキャン角度間隔Δθのパラメーターのセットを手動で選択することは困難であるためコスト曲面を導入する。

図１２は、サブビームフォーマがＤＳスキャンアンドサムビームフォーマのコスト曲面を示す図である。紙面の横方向の軸はマイクロホンの数Ｎ（個）であり、奥行き方向の軸はスキャン角度θ_ｓｃａｎ（度）であり、縦方向の軸はコスト関数Ｊである。図１２のコスト曲面において、マイクロホン数Ｎ、スキャン角度θ_ｓｃａｎの変化によって、グリッド検索処理によって最小のＪ値を持つパラメーターはＮ＝３６、θ_ｓｃａｎ＝０．６４度であった。

図１３は、ウイナービームフォーミングとスキャンアンドサムビームフォーマそれぞれのパターン例を示す図である。横軸は到来方向θ［度］であり、縦軸は利得（２０ｌｏｇ｜Ｐ_θＤＯＡ｜）［ｄＢ］である。符号ｇ４１のパターンは、遅延和（ＤＳ）を用いたスキャンアンドサムビームフォーマのパターンである。符号ｇ４２のパターンは、面音源に対する理想的なパターンである。符号ｇ４３のパターンは、比較用のウイナーフィルタによるビームフォーマである。
この設定でのＭＳＥの値は４０．８であり、図１１より小さな値であることが確認されたが、ビームパターンの高レベルのサイドローブは、分離率が悪い。

（第２の例）
第２の例では、ＭＶＤＲサブビームフォーマのＰ_θｉを選択した例を説明する。
ＭＶＤＲサブビームフォーマは、振幅と位相の両方で高い指向性と低い歪みを備えた適応フィルタであり、混合物の瞬時値によって推定できる混合信号の定位情報と空間相関を利用する。したがって、ＭＶＤＲ設計は一般的なシナリオで実用的になる。
図１４は、サブビームフォーマがＭＶＤＲスキャンアンドサムビームフォーマのＭＳＥ曲面を示す図である。各軸は、図１１と同じである。図１５は、サブビームフォーマがＭＶＤＲスキャンアンドサムビームフォーマのコスト曲面を示す図である。各軸は、図１２と同じである。

なお、コスト関数Ｃによる推奨パラメーター設定はＮ＝１８、θ_ｓｃａｎ＝１．０°である。図１６は、推奨設定での合成したＭＶＤＲスキャンアンドサムビームフォーマのパターンを示す図である。図１６において、各軸は図１３と同じである。図１６において、符号ｇ５２は、面音源に対する理想的なパターンである。符号ｇ５３は、ＭＶＤＲスキャンアンドサムビームフォーマである。図１３と図１６のように、ＭＶＤＲスキャンアンドサムビームフォーマは、ウイナーフィルタのパターンに近い。このように、本実施形態のＭＶＤＲスキャンアンドサムビームフォーマは、実施が容易であり、かつウイナーフィルタにパターンを実現することができる。

図１１では、ＤＳスキャンアンドサムビームフォーマのＭＳＥ曲面は、マイクロホン数が少ないと単調ではないが、ＭＳＥがマイクロホン数の増加とともに改善する。基本的に、マイクロホン数Ｎが増加すると、サブビームフォーマ（Ｐ_θｉ）の指向性が向上する。各ＤＳサブビームフォーマからの出力の位相の同期が不十分な場合は、スキャン軸に沿ったパフォーマンスが不安定になる可能性がある。
ＤＳスキャンアンドサムビームフォーマの例から、望ましい特性には、少ないマイクロホン数でサブビームフォーマの高い指向性を実現する能力と、位相のシフトを防ぐ能力が含まれていると言える。これらの機能は、ＭＶＤＲフィルタにつながる。

ＭＶＤＲフィルタにはいくつかの利点があるが、ＭＶＤＲサブビームフォーマの設計では、空間的に独立した点音源が想定される。ただし、面音源を均一な信号で生成するかどうかについては、基本的に制限がないが、シミュレーションによる評価では、シミュレーションを簡素化するために、混合行列を使用して点音源から面音源を合成する。この単純化されたシミュレーションでは、理論的にはＭＶＤＲフィルタがウイナーフィルタと比較して効果的であることが証明されている。しかし、各ＭＶＤＲサブビームフォーマのパフォーマンスを低下させる点音源を独立に保つことは困難である。

図１４は、ＭＶＤＲスキャンアンドサムビームフォーマのＭＳＥ曲面にはスキャン間隔方向で見ると極小値となる谷があり、この極小値をとるスキャン間隔はマイクロホン数Ｎが増加すると、より小さな値となる傾向がある。ＭＶＤＲスキャンアンドサムビームフォーマのＭＳＥ曲面のこの極小値は、図１１と比較して特徴的である。この現象は、物理的コストが増加すると計算コストも増加し、そうでなければパフォーマンスが低下することを示している。これは、ＭＶＤＲの高い指向性が原因である。

また、図１２も図１５も図１１と図１４と比較して極小値が検出しやすくなっている。これにより，ＭＳＥ曲面よりもコスト曲面の方が，Ｎやθｓｃａｎの検出に適しているといえる。

図１７は、低密度スキャンを選択した場合のビームパターンの例を示す図である。各軸は、図１３と同様である。図１７において、符号６１はＭＶＤＲパターンを示す。符号ｇ６２はスキャンアンドサムのパターンを示す。符号ｇ６３は理想パターンを示す。
なお、図１７に示す例では、マイクロホン数Ｎを１００、θ_ｓｃａｎの角度を５°で計算している。マイクロホンの数を増やした場合は、マイクロホンの指向性が非常に高くなるため、ビームパターンのメインローブが狭くなるが、サブビームフォーマの接続領域にギャップが現れるほどスキャン角度が不十分になる。この結果、対象領域の情報が失われる面パターンが生じてしまう。
このため、本実施形態では、音源分離部３４（図１）が、コスト関数Ｊを用いて評価を行うことで、適切なマイクロホン数、スキャン角度を選択するようにした。

＜評価結果＞
次に、評価結果を説明する。
以下の評価では、ＭＶＤＲサブビームフォーマのＰ_θｉを使用して、本実施形態のスキャンアンドサムビームフォーマの性能を評価するために、数値シミュレーションを行った。数値シミュレーションでは、設計ガイドラインに従って、マイクロホンの間隔ｄを２ｃｍ、マイクロホン数Ｎを２０、θ_ｓｃａｎの角度を０．５°に設定した。この場合、コストは、コスト関数Ｊの推奨パラメーター設定よりわずかに大きくなる。

評価に用いた面音源は、図１０に示すように、小さなバッファ空間で互いに隣接して設定した。分離目標の面音源は、男性の声であり、開始方位角θ_ｂが７５°であり、終了方位角θ_ｅが１０５°であり、第１の干渉波はピアノ音楽であり、第２の干渉波はホワイトノイズであり、それぞれ密度Δθ＝０．１°で３０°の範囲内に分布している。

評価では、混合行列Ａを使用して、面音源を式（２）として合成した。空間的に独立したホワイトノイズが混合物に追加されたため、シミュレーションはＳＮＲが２０ｄＢの条件下にある。一般的な広帯域信号をカバーするために、サンプリングレートＦｓは４４：１ｋＨｚに設定した。また、音声ファイルの持続時間は約６秒である。

評価では、Ｍａｔｌａｂ（登録商標）ツールボックスＢＳＳＥＶＡＬバージョン２．１を使用して、信号対干渉比（ＳＩＲ；Ｓｉｇｎａｌ−ｔｏ−ＩｎｔｅｒｆｅｒｅｎｃｅＲａｔｉｏ）、信号対アーチファクト比（ＳＡＲ；ＳｏｕｒｃｅｓｔｏＡｒｔｉｆａｃｔｓＲａｔｉｏ）、および信号対歪み比（ＳＤＲ；ＳｉｇｎａｌｔｏＤｉｓｔｏｒｔｉｏｎＲａｔｉｏ）について信号の分離を分析した。

ＳＩＲは、結果の分離率を評価できる。
ＳＡＲは、アルゴリズムの音質を評価できる。これは、優れたアルゴリズムが乱れ（ａｒｔｉｆａｃｔｓ）をほとんど生成しないためである。
ＳＤＲは、干渉、乱れ、およびノイズに関連する歪みを評価することができる。

図１８は、３つの異なるバッファ空間の評価結果を示す図である。
遷移帯域（通過帯域と減衰帯域の間の帯域）を備えた実用的な空間フィルタの場合、バッファ空間を０°とした分離が最も困難であるが、ＳＩＲは混合状態と比較して約１８ｄＢ（＝４．７＋１３．０）改善された。
図１８のように、バッファ空間の角度を大きくすると、ＳＩＲは更に改善された。ＭＶＤＲサブビームフォーマでは、乱れノイズ（ａｒｔｉｆａｃｔｎｏｉｓｅ）が空間的特徴の不確実な推定によって発生する。この結果、バッファ空間が狭くなる程、ＳＡＲが低下し、ＳＤＲが約９ｄＢ改善された。

図１９は、本実施形態に係る分離された面音源の例を示す図である。図１９において、紙面の横方向の軸は方位角（度）であり、奥行き方向の軸はフレーム数であり、縦方向の軸はスペクトラム（対数表現）である。評価に用いた音源とマイクロホンの配置は図１０と同様である。図１０のように面音源は、方位角が７５度から１０５度の間に配置されている。
本実施形態のスキャンアンドサムビームフォーマを用いて音源分離を行った結果、図１９に示すように、適切に面音源を分離することができた。

本実施形態による面音源分離の利点は、音源とマイクロホンアレイの種類に応じてさまざまな種類のサブビームフォーマを選択できることと、さまざまなサイズと形状の音源に対してさまざまな理想的なパターンを定義できることである。このように、スキャンアンドサムビームフォーマは、さまざまなシナリオに対して非常に柔軟である。
さらに、本実施形態では、選択したビームパターンの品質を評価ために、パフォーマンスとコストのバランスをとるコスト関数Ｊを備えたＭＳＥを用いることで、精度良く評価できる。また、本実施形態によれば、評価したＭＳＥによって、最適なマイクロホン数とスキャン角度をもとめることができる。

また、上述した第１と第２の例のように、本実施形態によれば、調整されたパラメーターと最適化されたパターンでスキャンアンドサムビームフォーマを実装する方法に関するガイドラインが効果的である。
また、数値シミュレーションにより、本実施形態によれば、困難な状況で３つの面音源の混合物のＳＩＲが改善された。

このように、本実施形態では、細分化した領域毎にサブビームフォーマを用いて、ビームフォーミング法によって細分化した領域の音響信号を収音された音響信号から抽出するようにした。そして、本実施形態では、細分化された領域毎に抽出した音響信号を加算することで、所望の面音源を分離するようにした。
これにより、本実施形態によれば、抑圧したい領域にある音源を適切に抑圧することができ、面音源を適切に分離できる。

なお、上述した音源分離システム１は、ロボット、受付システム、車両内の音声認識システム、音声認識を用いたスマートスピーカー、音声認識を用いた家電機器などの各種装置に適用することが可能である。
本実施形態によれば、抑圧したい領域にある音源を適切に抑圧することができ、面音源を適切に分離できるので、人間とロボットの相互作用などのアプリケーションで、ロボットのパフォーマンスが向上することができる。

なお、本発明における音源分離装置３の機能の全てまたは一部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより音源分離装置３が行う処理の全てまたは一部を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形および置換を加えることができる。

１…音源分離システム、２…収音部、３…音源分離装置、２１，２１−１，・・・２１−Ｎ…マイクロホン、３１…取得部、３２…伝達関数記憶部、３３…ビームパターン記憶部、３４…音源分離部、３５…出力部、３４１…分離部、３４２…評価部、３４３…選択部

Claims

音響信号を収音する、第１間隔で配置されるＮ（Ｎは２以上の整数）個のマイクロホンを有するマイクロホンアレイと、
所望の領域を第２間隔で細分化し、前記細分化した領域それぞれに対して、前記マイクロホンアレイによって収音された音響信号を、前記細分化した領域の方位角θに対応するサブビームを用いてビームフォーミング法によって分離して抽出し、前記抽出した音響信号を加算することにより前記所望の領域の音響信号を分離する音源分離部と、
を備える音源分離装置。
前記サブビームのパターンは、次式で表され、

上式において、Ｄ（θ）は音源の開始方位角θ_ｂ以上源の終了方位角θ_ｅ以下の場合に１であり他の方位角で０である所望の領域の音響信号を分離するための理想的なフィルタであり、Ｐ_θｉはθ_ｉ方向にビームの指向性を向けた場合の点音源を対象としたビームフォーマの指向特性であり、θ_ｉは各ビームフォーマの指向性の方向であり、Ｈはエルミート共役を意味し、ａ（θ）は音源か前記マイクロホンへの伝達関数であり、Ｗ_θｉはビームフォーマＰ_θｉの係数ベクトルであり、この場合の面音源のビームフォーマの係数Ｗは次式であり、

Ｄ（θ）を次式としたとき、

θ_ｉ＝θ_ｂ＋（ｉ−１）θ_ｓｃａｎと定義でき、ｂはθ_ｉ＝θ_ｂとなるｉの値であり、ｅはθ_ｉ＝θ_ｅとなるｉの値を示す、
請求項１に記載の音源分離装置。
コスト関数Ｊと、前記マイクロホンの数と、前記第２間隔と、の関係を算出する評価部と、
前記評価部が算出した前記コスト関数と、前記マイクロホンの数と、前記第２間隔と、の関係において、コスト関数が最小になる前記マイクロホンの数と、前記第２間隔を選択する選択部と、
をさらに備える請求項１または請求項２に記載の音源分離装置。
前記評価部は、
ビームパターンと理想的なパターンの違いを次式の対数平均二乗誤差ＭＳＥを用いて算出し、

次式を用いて前記コスト関数Ｊを算出し、算出した前記コスト関数Ｊと、前記マイクロホンの数Ｎと、スキャン角度θ_ｓｃａｎに基づいて、前記所望の領域の音響信号を分離するための最適な前記マイクロホンの数Ｎと、スキャン角度θ_ｓｃａｎを求め、

上式において、αは所定値であり、λ_１、λ_２それぞれは調整パラメーターである、
請求項３に記載の音源分離装置。
前記評価部は、
前記コスト関数Ｊと、前記マイクロホンの数Ｎと、スキャン角度θ_ｓｃａｎを三次元グラフに表し、前記コスト関数Ｊが最小となる前記マイクロホンの数Ｎと、スキャン角度θ_ｓｃａｎを選択することで、最適な前記マイクロホンの数Ｎと、スキャン角度θ_ｓｃａｎを求め、
前記音源分離部は、
前記評価部によって選択された最適な前記マイクロホンの数Ｎと、スキャン角度θ_ｓｃａｎに更新する、
請求項４に記載の音源分離装置。
第１間隔で配置されるＮ（Ｎは２以上の整数）個のマイクロホンを有するマイクロホンアレイが、音響信号を収音し、
音源分離部が、所望の領域を第２間隔で細分化し、
前記音源分離部が、前記細分化された領域それぞれに対して、音響信号を、前記細分化した領域の方位角θに対応するサブビームを用いてビームフォーミング法によって分離して抽出し、
前記音源分離部が、前記抽出された音響信号を加算することにより前記所望の領域の音響信号を分離する、
音源分離方法。
コンピュータに、
第１間隔で配置されるＮ（Ｎは２以上の整数）個のマイクロホンを有するマイクロホンアレイに音響信号を収音させ、
所望の領域を第２間隔で細分化させ、
前記細分化された領域それぞれに対して、前記細分化された領域の方位角θに対応するサブビームを用いてビームフォーミング法によって前記音響信号を分離して抽出させ、
前記抽出された音響信号を加算することにより前記所望の領域の音響信号を分離させる、
プログラム。