JP2021197566A - 音源分離装置、音源分離方法、およびプログラム - Google Patents

音源分離装置、音源分離方法、およびプログラム Download PDF

Info

Publication number
JP2021197566A
JP2021197566A JP2020100287A JP2020100287A JP2021197566A JP 2021197566 A JP2021197566 A JP 2021197566A JP 2020100287 A JP2020100287 A JP 2020100287A JP 2020100287 A JP2020100287 A JP 2020100287A JP 2021197566 A JP2021197566 A JP 2021197566A
Authority
JP
Japan
Prior art keywords
sound source
scan
microphones
acoustic signal
source separation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020100287A
Other languages
English (en)
Other versions
JP7316614B2 (ja
Inventor
一博 中臺
Kazuhiro Nakadai
知 鍾
Chin Chung
克寿 糸山
Katsutoshi Itoyama
健次 西田
Kenji Nishida
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Tokyo Institute of Technology NUC
Original Assignee
Honda Motor Co Ltd
Tokyo Institute of Technology NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd, Tokyo Institute of Technology NUC filed Critical Honda Motor Co Ltd
Priority to JP2020100287A priority Critical patent/JP7316614B2/ja
Publication of JP2021197566A publication Critical patent/JP2021197566A/ja
Application granted granted Critical
Publication of JP7316614B2 publication Critical patent/JP7316614B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】面音源を分離することができる音源分離装置、音源分離方法、およびプログラムを提供することを目的とする。【解決手段】音源分離装置は、音響信号を収音する、第1間隔で配置されるN(Nは2以上の整数)個のマイクロホンを有するマイクロホンアレイと、所望の領域を第2間隔で細分化し、細分化した領域それぞれに対して、マイクロホンアレイによって収音された音響信号を、細分化した領域の方位角θに対応するサブビームを用いてビームフォーミング法によって分離して抽出し、抽出した音響信号を加算することにより所望の領域の音響信号を分離する音源分離部と、を備える。【選択図】図1

Description

本発明は、音源分離装置、音源分離方法、およびプログラムに関する。
マイクロホンアレイで収音した音響信号に対して、ビームフォーミング等の処理を行うことで、複数の音源が混在した観測信号から、特定の音源のみを取り出す音源分離を行うことができる(例えば特許文献1参照)。
これらの音源分離処理では、音源が点音源であることが前提として理論が構築されている。通常の音源は面音源であるため、従来は、面音源を点音源であるものとして分離処理を行っていた。従来は、面音源を疑似的に音源分離するために、遅延和ビームフォーミングやエコーキャンセルといったビーム(指向性)を広くとる手法が用いられてきた。
特開2015−46759号公報
しかしながら、従来技術では、指向性の細かい制御が難しく、例えば抑圧したい領域にある音源を抽出してしまう、面の形状が四角やより複雑な形状である音源には対応できないといった問題があった。
本発明は、上記の問題点に鑑みてなされたものであって、面音源を分離することができる音源分離装置、音源分離方法、およびプログラムを提供することを目的とする。
(1)上記目的を達成するため、本発明の一態様に係る音源分離装置は、音響信号を収音する、第1間隔で配置されるN(Nは2以上の整数)個のマイクロホンを有するマイクロホンアレイと、所望の領域を第2間隔で細分化し、前記細分化した領域それぞれに対して、前記マイクロホンアレイによって収音された音響信号を、前記細分化した領域の方位角θに対応するサブビームを用いてビームフォーミング法によって分離して抽出し、前記抽出した音響信号を加算することにより前記所望の領域の音響信号を分離する音源分離部と、を備える。
(2)また、本発明の一態様に係る音源分離装置において、前記サブビームのパターンは、次式で表され、
Figure 2021197566
上式において、D(θ)は音源の開始方位角θ以上源の終了方位角θ以下の場合に1であり他の方位角で0である所望の領域の音響信号を分離するための理想的なフィルタであり、Pθiはθ方向にビームの指向性を向けた場合の点音源を対象としたビームフォーマの指向特性であり、θは各ビームフォーマの指向性の方向であり、Hはエルミート共役を意味し、a(θ)は音源か前記マイクロホンへの伝達関数であり、WθiはビームフォーマPθiの係数ベクトルであり、この場合の面音源のビームフォーマの係数Wは次式であり、
Figure 2021197566
D(θ)を次式としたとき、
Figure 2021197566
θ=θ+(i−1)θscanと定義でき、bはθ=θとなるiの値であり、eはθ=θとなるiの値を示す、ようにしてもよい。
(3)また、本発明の一態様に係る音源分離装置において、コスト関数Jと、前記マイクロホンの数と、前記第2間隔と、の関係を算出する評価部と、前記評価部が算出した前記コスト関数と、前記マイクロホンの数と、前記第2間隔と、の関係において、コスト関数が最小になる前記マイクロホンの数と、前記第2間隔を選択する選択部と、をさらに備えるようにしてもよい。
(4)また、本発明の一態様に係る音源分離装置において、前記評価部は、ビームパターンと理想的なパターンの違いを次式の対数平均二乗誤差MSEを用いて算出し、
Figure 2021197566
次式を用いて前記コスト関数Jを算出し、算出した前記コスト関数Jと、前記マイクロホンの数Nと、スキャン角度θscanに基づいて、前記所望の領域の音響信号を分離するための最適な前記マイクロホンの数Nと、スキャン角度θscanを求め、
Figure 2021197566
上式において、αは所定値であり、λ、λそれぞれは調整パラメーターである、ようにしてもよい。
(5)また、本発明の一態様に係る音源分離装置において、前記評価部は、前記コスト関数Jと、前記マイクロホンの数Nと、スキャン角度θscanを三次元グラフに表し、前記コスト関数Jが最小となる前記マイクロホンの数Nと、スキャン角度θscanを選択することで、最適な前記マイクロホンの数Nと、スキャン角度θscanを求め、前記音源分離部は、前記評価部によって選択された最適な前記マイクロホンの数Nと、スキャン角度θscanに更新する、ようにしてもよい。
(6)上記目的を達成するため、本発明の一態様に係る音源分離方法は、第1間隔で配置されるN(Nは2以上の整数)個のマイクロホンを有するマイクロホンアレイが、音響信号を収音し、音源分離部が、所望の領域を第2間隔で細分化し、前記音源分離部が、前記細分化された領域それぞれに対して、音響信号を、前記細分化した領域の方位角θに対応するサブビームを用いてビームフォーミング法によって分離して抽出し、前記音源分離部が、前記抽出された音響信号を加算することにより前記所望の領域の音響信号を分離する。
(7)上記目的を達成するため、本発明の一態様に係るプログラムは、コンピュータに、第1間隔で配置されるN(Nは2以上の整数)個のマイクロホンを有するマイクロホンアレイに音響信号を収音させ、所望の領域を第2間隔で細分化させ、前記細分化された領域それぞれに対して、前記細分化された領域の方位角θに対応するサブビームを用いてビームフォーミング法によって前記音響信号を分離して抽出させ、前記抽出された音響信号を加算することにより前記所望の領域の音響信号を分離させる。
上述した(1)〜(7)によれば、抑圧したい領域にある音源を適切に抑圧することができ、面音源を分離することができる。
上述した(2)によれば、細分化した領域毎にサブビームフォーマを用いて、ビームフォーミング法によって細分化した領域の音響信号を収音された音響信号から抽出でき細分化された領域毎に抽出した音響信号を加算することで、所望の面音源を分離できる。
上述した(3)〜(5)によれば、コスト関数Jを用いることで、面音源を抽出するための最適なマイクロホンの数、所望の領域を分割する間隔を選択することができる。
実施形態に係る音源分離システムの構成例を示すブロック図である。 実施形態に係るマイクロホンの配置例を示す図である。 実施形態で用いるビームフォーマを説明するための図である。 評価に用いたマイクロホンアレイのセッティングと分離目標の面音源の関係を示す図である。 分離目標の面音源を抽出し、周囲のノイズを抑圧するための設定例である。 適応MVDRのビームフォーマ例を示す図である。 図6の適応MVDRのビームフォーマを用いた場合のMSE曲面である。 DSのビームフォーマを示す図である。 図8のDSのビームフォーマを用いた場合のMSE曲面である。 分離目標の面音源の設定例を示す図である。 サブビームフォーマがDSスキャンアンドサム ビームフォーマのMSE曲面を示す図である。 サブビームフォーマがDSスキャンアンドサム ビームフォーマのコスト曲面を示す図である。 ウイナー ビームフォーミングとスキャンアンドサム ビームフォーマそれぞれのパターン例を示す図である。 サブビームフォーマがMVDRスキャンアンドサム ビームフォーマのMSE曲面を示す図である。 サブビームフォーマがMVDRスキャンアンドサム ビームフォーマのコスト曲面を示す図である。 推奨設定での合成したMVDRスキャンアンドサム ビームフォーマのパターンを示す図である。 低密度スキャンを選択した場合のビームパターンの例を示す図である。 3つの異なるバッファサイズの評価結果を示す図である。 実施形態に係る分離された面音源の例を示す図である。
以下、本発明の実施の形態について図面を参照しながら説明する。なお、以下の説明に用いる図面では、各部材を認識可能な大きさとするため、各部材の縮尺を適宜変更している。また、本実施形態では、特定領域の音響信号を面音源という。
図1は、本実施形態に係る音源分離システム1の構成例を示すブロック図である。音源分離システム1は、収音部2、および音源分離装置3を備える。
収音部2は、N(Nは2以上の整数)のマイクロホン21−1、…、マイクロホン21−Nを備える。なお、以下の説明において、マイクロホン21−1、…、マイクロホン21−Nのうち1つを特定しない場合は、マイクロホン21という。
音源分離装置3は、取得部31、伝達関数記憶部32、ビームパターン記憶部33、音源分離部34、および出力部35を備える。
音源分離部34は、分離部341、評価部342、および選択部343(評価部)を備える。
収音部2は、n個のマイクロホン21を備えるマイクロホンアレイである。収音部2は、音源が発した音響信号を収音し、収音したnチャネルの音響信号を取得部31に出力する。なお、マイクロホン21の配置については、後述する。
取得部31は、収音部2が出力するアナログのnチャネルの音響信号を取得し、取得したアナログの音響信号をデジタルの音響信号に変換する。なお、収音部2のn個のマイクロホン21それぞれが出力する音響信号は、同じサンプリング周波数の信号を用いてサンプリングが行われる。取得部31は、デジタルに変換した音響信号を音源分離部34に出力する。
伝達関数記憶部32は、到来方向を引数とする関数として表現してモデル化された伝達関数を、収音部2が備えるマイクロホン21毎に格納する。
ビームパターン記憶部33は、サブビームパターンを記憶するようにしてもよい。なお、サブビームパターンについては後述する。
音源分離部34は、所望の領域の音響信号を分離し、分離した所望の領域の音響信号を出力部35に出力する。音源分離部34は、分離に用いたビームパターンを評価する。音源分離部34は、評価した結果に基づいて、マイクロホン21の数、所望の領域を分割する間隔を選択する。なお、所望の領域は、分離したい面音源が存在する領域を含む領域である。
分離部341は、所望の領域を等間隔で細分化する。音源分離部34は、細分化した領域毎にサブビームフォーマを用いて、ビームフォーミング法によって細分化した領域の音響信号を収音された音響信号から抽出する。音源分離部34は、細分化された領域毎に抽出した音響信号を加算することで、所望の面音源を分離する。なお、分離部341は、マイクロホン21の数、所望の領域を分割する間隔を自部が記憶する初期値に設定する。分離部341は、選択部343が出力する選択結果に基づいて、マイクロホン21の数、所望の領域を分割する間隔を更新するようにしてもよい。
評価部342は、選択したビームパターンの品質を、パフォーマンスとコストのバランスをとるコスト関数Jを備えたMSE(対数平均二乗誤差(Mean Square Error))を用いて評価する。評価部342は、評価した評価結果を選択部343に出力する。なお、コスト関数J、MSE、評価方法については後述する。
選択部343は、評価部342が評価した評価結果に基づいて、マイクロホン21の数、所望の領域を分割する間隔を選択する。選択部343は、後述するようにコスト関数J、マイクロホン21の数、所望の領域を分割する間隔を三次元グラフで表し、このグラフにおいて最小値を検出することで、マイクロホン21の数、所望の領域を分割する間隔を選択する。選択部343は、選択した建託結果を分離部341に出力する。
出力部35は、例えばスピーカーである。出力部35は、音源分離部34が分離した所望の領域の音響信号を出力する。
<マイクロホンの配置例>
次に、マイクロホン21の配置例を説明する。
図2は、本実施形態に係るマイクロホン21の配置例を示す図である。N個のマイクロホン21は、間隔(第1間隔)がd毎に等間隔で、21−1,2−2,…,21−(N−1)、21−(N−1)の順に、例えば直線g11上に配置されている。一端のマイクロホン21−1を参照マイクロホンとする。なお、マイクロホン21の個数N、間隔dは、例えば後述するコスト等に応じて選択するようにしてもよい。
N個のマイクロホン21は、全て無指向性のマイクロホンである。音源とマイクロホン21との距離は、音源からの信号が平面波としてマイクロホン21に入力される距離が望ましい。
符号g12は、マイクロホン21に入力される平面波を表している。方位角θは、マイクロホン21が配置される直線g11と、入力される平面波g12とのなす角であり、反時計回りに増加するとする。音波の音速をc(340.29m/s)で表す。
音源からの信号は、次式(1)のように表されるa(θ,f)∈CN×1(Cは複素数全体の集合)で示される位相シフトベクトル(phase−shift vector)で表される伝達関数を介してマイクロホンアレイである収音部2に伝播される。この伝達関数は、伝達関数記憶部32が記憶する。
Figure 2021197566
式(1)において、Tは転置行列を表す。τは、マイクロホンアレイ内の隣接する2つのマイクロホン21間の遅延時間であり、τ=(d・cosθ)/cである。また、fは、入力信号の異なる周波数成分であり、f=ω/2πである。以下の説明では、説明を簡単にするため、fを省略する。
i番目の受信される点音源(point source)は、Z=aである。ここで、aは、i番目の点音源の到来方向(DOA)に焦点を当てた伝達関数である。マイクの熱雑音のような空間的白色雑音は、V∈CN×1として表される。
また、混合信号Z∈CN×1は、次式(2)のように表すことができる。
Figure 2021197566
式(2)において、S=[S,S,…,SNsigであり、Nsigは信号の数である。Aは、個々の点音源を混合するためのマルチチャネルの音声信号であり、A=[a,a,…,aNsig]は混合行列である。
<点音源のビームフォーマの基本式>
次に、点音源のビームフォーマの基本式について説明する。
ビームフォーマは、係数ベクトルW∈CNch×1で表される。ビームフォーマの方向周波数応答は、次式(3)のように定義される「パターン」である。
Figure 2021197566
式(3)において、Hはエルミート共役を意味し、θDOAは目標音源到来方向(focus DOA)を表す。また、下付表示のDOAは、フォーカス到来方向の設計パラメーターを表す。a(θ)は、式(1)の伝達関数においてfを省略したものである。変数は信号の入力方向を表す。異なる方向からの信号入力の選択は、ビームフォーマにおける指向性である。
<スキャンアンドサム(SCAN−AND−SUM) ビームフォーマ>
次に、本実施形態で用いるスキャンアンドサム ビームフォーマについて説明する。
本実施形態では、1つのビームフォーマで面ビームパターンを設計する代わりに、点音源のサブビームフォーマをフォーカス到来方向に変更し、目的の面音源が存在する領域を適切なスキャン角度でスキャンする。本実施形態では、このサブビームフォーマを、面ビームフォーマに統合する。本実施形態では、この手法をスキャンアンドサム ビームフォーマ法(またはスキャンアンドサム法)と呼ぶ。
図3は、本実施形態で用いるビームフォーマを説明するための図である。図3において、横軸は到来方向θ[度]であり、縦軸は利得(20log|PθDOA|)[dB]である。符号g21のパターンは、比較例のMVDR(Minimum Variance Distortionless Response;最小分散無歪応答法)スキャンのビームパターンである。符号g22のパターンは、本実施形態で用いるスキャンアンドサム法(scan−and−sum method)のビームパターンである。符号g23のパターンは、面音源に対する理想的なビームパターンである。なお、MVDRの場合は、目的音源を歪ませない線形拘束条件の下で、出力パワーを最小化するような分離行列を求めることで音源分離を行う。また、図3に示したスキャンアンドサム法のビームパターンは一例であり、これに限らない。
なお、スキャンアンドサム法は、面音源が多数の点音源の組み合わせに分解できるというモデルに基づいている。
パラメーター設定の例として、すべてのパターンと解析の分析は、例えばd=2cm、N=20、f=2kHzで行った。このため、マイクロホンアレイの長さは40cmである。
<スキャンアンドサム ビームフォーマの式>
次に、スキャンアンドサム ビームフォーマで用いる式について説明する。
理想的なパターンD(θ)は、次式(4)のような方位角次元である。
Figure 2021197566
式(4)において、θは面音源の開始方位角であり、θは面音源の終了方位角である。一連のDOAs(θ)に焦点を合わせた既知の点音源のビームフォーマのパターンは、Pθiとして示される。ここで、θは、各ビームフォーマの指向性の方向であり、θ=θ+(i−1)θscanである。θscanは、スキャン角度(第2間隔)である。また、bはθ=θとなるiの値であり、eはθ=θとなるiの値を示す。
本実施形態で用いるスキャンアンドサム ビームフォーマの式は、次式(5)のように表される。
Figure 2021197566
式(5)において、Pθiは、θにおけるビームフォーマの指向特性である。Pθは、θ方向にビームの指向性を向けた場合の点音源を対象としたビームフォーマの指向特性である。なお、実施形態では、最大応答を0dBに正規化した。
なお、式(5)から,P(θ)はPθi(θ)をe−b+1個加算した関数であることから、θscanの関数であり,これを明示的に示すために、Pθscan(θ)と表すこととすれば、スキャンアンドサム ビームフォーマは、次式(6)のように表すこともできる。
Figure 2021197566
式(6)において、Pθi(θ)(i=1,2,…)は、方位角θ方向に指向性があるサブビームフォーマのパターンである。式(5)または式(6)のように、スキャンアンドサム ビームフォーマは、複数のサブビームのパターンを合成することで、理想的なパターンに近いビームパターンを実現する。なお、サブビームパターンとは、図3の符号g211の鎖線のように、所定の方位角毎のパターンである。また、Nは、e−b+1である。
また、式(3)と式(5)より、スキャンアンドサム ビームフォーマの係数ベクトルWは、次式(7)のように表される。
Figure 2021197566
式(6)は加算する際の重みB=[b,b,…,b,…,bNS]を考慮して、次式(8)としてもよい。
Figure 2021197566
この場合、P(θ)とD(θ)の平均二乗誤差(MSE)を最小化する問題を解くことによって,次式(9)として一意に求めることができる。
Figure 2021197566
ただし、Q(θ)=[pφ1(θ),pφ2(θ),…,pφi(θ),…,pφNS(θ)]とする。
<エラー分析の基準>
次に、エラー分析の基準について説明する。
スキャンアンドサムのパターンが、目的のパターンを正確に近似しているかを確認するため、スキャンアンドサムビームパターンと理想的なパターンの違いを評価する。式(6)より、Pθi(θ)はマイクロホン数Nの関数であり、かつ、このφの間隔はθの間隔と同じθscanであることから、P(θ)はNおよびθscanの関数となる。これを明示的に示すため、P(θ)をPN,θscan(θ)と再定義する。このとき,評価のための基準のMSE(Mean Square Error;平均二乗誤差)は、次式(10)のように定式化できる。
Figure 2021197566
MSEは、マイクロホンの数Nとスキャン角度θscanの2つの変数を用いて求められる。
図4は、評価に用いたマイクロホンアレイのセッティングと分離目標の面音源の関係を示す図である。方位が約75〜105度は分離目標の面音源(g31)であり、方位が約45〜75度は第1の干渉波(g32)であり、方位が約105〜135度は第2の干渉波(g33)である。干渉波は、例えば抽出したい面音源の周囲から発せられるノイズである。評価の条件は、マイクロホン21の間隔が2cm、f=2kHz、マイクロホン数を20、スキャン角度θscanを0.92度で行った。また、評価に用いた音源は、マイクロホンから遠方にあるファーフィールドであり、面音源である。
また、FをFFT(高速フーリエ変換)における周波数のスライスセットとし、|F|をFの集合の濃度(cardinality)であるとする。音源が存在する領域の誤差を重視し、式(10)を次式(11)のように表すことにする。
Figure 2021197566
式(9)において、図5のようにΘitfは図4の第1、および第2の干渉波の存在範囲の角度であり、Θtarは図4の目的音源の存在範囲の角度である。図5は、分離目標の面音源を抽出し、周囲のノイズを抑圧するための設定例である。また、図6は、適応MVDRのビームフォーマ例を示す図である。図7は、図6の適応MVDRのビームフォーマを用いた場合のMSE曲面である。図5と図6において、横軸は角度(度)、縦軸は利得(dB)である。図7において、紙面の横方向の軸はマイクロホンの数N(個)であり、奥行き方向の軸はスキャン角度θscan(度)であり、縦方向の軸は対数MSEである。
図6のように、適応MVDRのビームフォーマのパターンは、分離目標の面音源と干渉波との利得差は約10dBである。そして、図7のように、MSEは、マイクロホン数Nを100、スキャン角度を0度に近づけても−20程度であった。また、マイクロホン数Nを100にした場合であっても、スキャン角度が広がると、MSEは−5程度であった。
図8は、DS(Delay and Sum)のビームフォーマを示す図である。図9は、図8のDSのビームフォーマを用いた場合のMSE曲面である。図8において、横軸は角度(度)、縦軸は利得(dB)である。図9において、紙面の横方向の軸はマイクロホンの数N(個)であり、奥行き方向の軸はスキャン角度θscan(度)であり、縦方向の軸は対数MSEである。
図8のように、DSビームフォーマのパターンは、分離目標の面音源と干渉波との利得差は、30度離れた角度であっても6dB程度である。そして、図9のように、MSEは、マイクロホン数Nを100、スキャン角度を0度に近づけても−10程度であった。また、マイクロホン数Nを100にした場合であっても、スキャン角度が広がると、MSEは−7程度であった。
<評価に用いるコスト>
ここで、マイクロホンの数(N)は物理的なコストと見なすことができる。この理由は、マイクロホンの数が増えると、それを収容するためにより大きな装置を必要とし、多くのハードウェアが必要になるためである。
式(5)において、サブビームフォーマの数(N)がスキャン角度に反比例するため、スキャン角度(θscan)は計算コストと見なすことができる。さらにPθiを計算する必要がある。
一般に、コストが増加するとパフォーマンスが向上する。完全に単調ではないが、MSEは、マイクロホン数Nの増加またはスキャン角度θscanの減少とともに改善する。一般に、MSEを最小化すると、非現実的で許容できないコストが発生するため、パフォーマンスとコストの両方を均一に測定するために、次式(12)のコスト関数Jを導入する。
Figure 2021197566
式(12)において、αは所定値であり、λ(i=1,2)は、調整パラメーターである。以下の評価ではλ=0.0159、λ=0.000159,α=0.2,MSEmax=50とした。また、式(12)において、予想されるパフォーマンスが含まれるMSE曲面のスライスと、N、θscanの領域の両方を扱う。MSEとコストの値は広範囲にわたって変化するため、重みとして機能するλ(i=1,2)が必要である。
式(10)の3項目と4項目は、正規化されたコストである。ここで、λは、実用的なマイクの最大数を正規化するために選択する(たとえば、1/100=0.01)。同様に、λは、考慮可能な最小スキャン角度として選択する(たとえば、0.01°)。
MSEのスライス間の重み付け(最初の2項目)およびコスト領域(最後の2項目)は、λ(i=1,2,3)の値を変更することで調整できる。
パフォーマンスとコストのトレードオフは最適化の問題は、次式(13)のように表すことができる。
Figure 2021197566
なお、arg min J(x)は、J(x)を最小にするxの集合である。
本実施形態によれば、コスト関数Jの導入によって、面音源を抽出するための最適なマイクロホンの数、所望の領域を分割する間隔を選択することができる。
<最適化とパラメーターの調整>
本実施形態のスキャンアンドサム ビームフォーマを実装および最適化する方法に関するガイドラインは以下である。
I.マイクロホンアレイのタイプは、カバーする必要があるスペース範囲に従って決定する。例えば、方位角360度をカバーしたい場合は円形マイクロホンアレイを選択する。理想的なパターンは、前提条件のローカリゼーション情報に従って、式(4)によって決定する。
II.利用者には、さまざまなタイプのサブビームフォーマを選択する柔軟性がある。ただし、利用者は、アプリケーションシナリオに合わせて慎重に選択する必要がある。例えば、強いノイズ環境では、DSサブビームフォーマが適している場合がある。
III.スキャンアンドサムのビームパターンの合成後、MSE曲面はグリッドのセット、例えば対数スケールにおいてN∈[6,100]、θscan∈[0.01,10]の範囲のグリッドで計算できる。
IV.MSE、マイクロホン数N、スキャン角度θscan空間の最小点をグリッド検索アルゴリズムによって決定できるように、コスト関数Jに展開する。
V.コスト関数によって決定された設定のスキャンアンドビームフォーマは、結果を確認するために、例えばウイナーフィルタおよび理想的なパターンと比較し、数値評価も行うことが望ましい。
最適化問題の分析的解決は困難であるが、最適な理論的解決策を調べてから、それに近似する実用的な解決策を見つけることが望ましい。最適な適応フィルタとして知られるウイナーフィルタは、混合物の空間相関情報と理想的な参照信号の両方を必要とする。利用者は通常、参照として機能するターゲット信号を所有していないため、ウイナーフィルタは実用的ではない。スキャンアンドサム ビームフォーマとウイナーフィルタを比較すると、本実施形態のスキャンアンドサム ビームフォーマが最適解の適切な近似値である。
適応設計では、面音源の位置が異なると、適応サブビームフォーマのパターンがわずかに異なる。図1と異なる面音源の設定を図10に示す。図10は、分離目標の面音源の設定例を示す図である。図10に示す例では、分離目標の面音源(g31)と2つの干渉波(g32、g33)が存在する。面音源(g31)と第1の干渉波(g32)の間には、方位角で30度を占めるバッファ空間(g35)が設けられている。面音源(g31)と第2の干渉波(g33)の間には、方位角で30度を占めるバッファ空間(g36)が設けられている。
以下の説明において、すべてのMSEとコスト曲面は、バッファ空間無しで計算した例を説明する。
(第1の例)
第1の例では、DSサブビームフォーマのPθiを選択した例を説明する。
DSサブビームフォーマは、空間フィルタの中で最も基本的であり、実装の単純さと強いノイズに対する堅牢性に特化しているが、信号機能に適応しないためDS設計は一般に最適ではない。
図11は、サブビームフォーマがDSスキャンアンドサム ビームフォーマのMSE曲面を示す図である。紙面の横方向の軸はマイクロホンの数M(個)であり、奥行き方向の軸はスキャン角度間隔Δθ(度)であり、縦方向の軸は対数MSEである。なお、図11は、N∈[2,50]で3個おきに、θscan∈[0.01,10]内で、対数スケールで計算した結果である。図11のMSE曲面は、マイクロホン数N、スキャン角度間隔Δθの変化によって、変化が単調であり、最小値が見つけにくい。このため、DSスキャンアンドサム ビームフォーマにおいては、マイクロホン数N、スキャン角度間隔Δθのパラメーターのセットを手動で選択することは困難であるためコスト曲面を導入する。
図12は、サブビームフォーマがDSスキャンアンドサム ビームフォーマのコスト曲面を示す図である。紙面の横方向の軸はマイクロホンの数N(個)であり、奥行き方向の軸はスキャン角度θscan(度)であり、縦方向の軸はコスト関数Jである。図12のコスト曲面において、マイクロホン数N、スキャン角度θscanの変化によって、グリッド検索処理によって最小のJ値を持つパラメーターはN=36、θscan=0.64度であった。
図13は、ウイナー ビームフォーミングとスキャンアンドサム ビームフォーマそれぞれのパターン例を示す図である。横軸は到来方向θ[度]であり、縦軸は利得(20log|PθDOA|)[dB]である。符号g41のパターンは、遅延和(DS)を用いたスキャンアンドサム ビームフォーマのパターンである。符号g42のパターンは、面音源に対する理想的なパターンである。符号g43のパターンは、比較用のウイナーフィルタによるビームフォーマである。
この設定でのMSEの値は40.8であり、図11より小さな値であることが確認されたが、ビームパターンの高レベルのサイドローブは、分離率が悪い。
(第2の例)
第2の例では、MVDRサブビームフォーマのPθiを選択した例を説明する。
MVDRサブビームフォーマは、振幅と位相の両方で高い指向性と低い歪みを備えた適応フィルタであり、混合物の瞬時値によって推定できる混合信号の定位情報と空間相関を利用する。したがって、MVDR設計は一般的なシナリオで実用的になる。
図14は、サブビームフォーマがMVDRスキャンアンドサム ビームフォーマのMSE曲面を示す図である。各軸は、図11と同じである。図15は、サブビームフォーマがMVDRスキャンアンドサム ビームフォーマのコスト曲面を示す図である。各軸は、図12と同じである。
なお、コスト関数Cによる推奨パラメーター設定はN=18、θscan=1.0°である。図16は、推奨設定での合成したMVDRスキャンアンドサム ビームフォーマのパターンを示す図である。図16において、各軸は図13と同じである。図16において、符号g52は、面音源に対する理想的なパターンである。符号g53は、MVDRスキャンアンドサム ビームフォーマである。図13と図16のように、MVDRスキャンアンドサム ビームフォーマは、ウイナーフィルタのパターンに近い。このように、本実施形態のMVDRスキャンアンドサム ビームフォーマは、実施が容易であり、かつウイナーフィルタにパターンを実現することができる。
図11では、DSスキャンアンドサム ビームフォーマのMSE曲面は、マイクロホン数が少ないと単調ではないが、MSEがマイクロホン数の増加とともに改善する。基本的に、マイクロホン数Nが増加すると、サブビームフォーマ(Pθi)の指向性が向上する。各DSサブビームフォーマからの出力の位相の同期が不十分な場合は、スキャン軸に沿ったパフォーマンスが不安定になる可能性がある。
DSスキャンアンドサム ビームフォーマの例から、望ましい特性には、少ないマイクロホン数でサブビームフォーマの高い指向性を実現する能力と、位相のシフトを防ぐ能力が含まれていると言える。これらの機能は、MVDRフィルタにつながる。
MVDRフィルタにはいくつかの利点があるが、MVDRサブビームフォーマの設計では、空間的に独立した点音源が想定される。ただし、面音源を均一な信号で生成するかどうかについては、基本的に制限がないが、シミュレーションによる評価では、シミュレーションを簡素化するために、混合行列を使用して点音源から面音源を合成する。この単純化されたシミュレーションでは、理論的にはMVDRフィルタがウイナーフィルタと比較して効果的であることが証明されている。しかし、各MVDRサブビームフォーマのパフォーマンスを低下させる点音源を独立に保つことは困難である。
図14は、MVDRスキャンアンドサム ビームフォーマのMSE曲面にはスキャン間隔方向で見ると極小値となる谷があり、この極小値をとるスキャン間隔はマイクロホン数Nが増加すると、より小さな値となる傾向がある。MVDRスキャンアンドサム ビームフォーマのMSE曲面のこの極小値は、図11と比較して特徴的である。この現象は、物理的コストが増加すると計算コストも増加し、そうでなければパフォーマンスが低下することを示している。これは、MVDRの高い指向性が原因である。
また、図12も図15も図11と図14と比較して極小値が検出しやすくなっている。これにより,MSE曲面よりもコスト曲面の方が,Nやθscanの検出に適しているといえる。
図17は、低密度スキャンを選択した場合のビームパターンの例を示す図である。各軸は、図13と同様である。図17において、符号61はMVDRパターンを示す。符号g62はスキャンアンドサムのパターンを示す。符号g63は理想パターンを示す。
なお、図17に示す例では、マイクロホン数Nを100、θscanの角度を5°で計算している。マイクロホンの数を増やした場合は、マイクロホンの指向性が非常に高くなるため、ビームパターンのメインローブが狭くなるが、サブビームフォーマの接続領域にギャップが現れるほどスキャン角度が不十分になる。この結果、対象領域の情報が失われる面パターンが生じてしまう。
このため、本実施形態では、音源分離部34(図1)が、コスト関数Jを用いて評価を行うことで、適切なマイクロホン数、スキャン角度を選択するようにした。
<評価結果>
次に、評価結果を説明する。
以下の評価では、MVDRサブビームフォーマのPθiを使用して、本実施形態のスキャンアンドサム ビームフォーマの性能を評価するために、数値シミュレーションを行った。数値シミュレーションでは、設計ガイドラインに従って、マイクロホンの間隔dを2cm、マイクロホン数Nを20、θscanの角度を0.5°に設定した。この場合、コストは、コスト関数Jの推奨パラメーター設定よりわずかに大きくなる。
評価に用いた面音源は、図10に示すように、小さなバッファ空間で互いに隣接して設定した。分離目標の面音源は、男性の声であり、開始方位角θが75°であり、終了方位角θが105°であり、第1の干渉波はピアノ音楽であり、第2の干渉波はホワイトノイズであり、それぞれ密度Δθ=0.1°で30°の範囲内に分布している。
評価では、混合行列Aを使用して、面音源を式(2)として合成した。空間的に独立したホワイトノイズが混合物に追加されたため、シミュレーションはSNRが20dBの条件下にある。一般的な広帯域信号をカバーするために、サンプリングレートFsは44:1kHzに設定した。また、音声ファイルの持続時間は約6秒である。
評価では、Matlab(登録商標)ツールボックスBSS EVALバージョン2.1を使用して、信号対干渉比(SIR;Signal−to−Interference Ratio)、信号対アーチファクト比(SAR;Sources to Artifacts Ratio)、および信号対歪み比(SDR;Signal to Distortion Ratio)について信号の分離を分析した。
SIRは、結果の分離率を評価できる。
SARは、アルゴリズムの音質を評価できる。これは、優れたアルゴリズムが乱れ(artifacts)をほとんど生成しないためである。
SDRは、干渉、乱れ、およびノイズに関連する歪みを評価することができる。
図18は、3つの異なるバッファ空間の評価結果を示す図である。
遷移帯域(通過帯域と減衰帯域の間の帯域)を備えた実用的な空間フィルタの場合、バッファ空間を0°とした分離が最も困難であるが、SIRは混合状態と比較して約18dB(=4.7+13.0)改善された。
図18のように、バッファ空間の角度を大きくすると、SIRは更に改善された。MVDRサブビームフォーマでは、乱れノイズ(artifact noise)が空間的特徴の不確実な推定によって発生する。この結果、バッファ空間が狭くなる程、SARが低下し、SDRが約9dB改善された。
図19は、本実施形態に係る分離された面音源の例を示す図である。図19において、紙面の横方向の軸は方位角(度)であり、奥行き方向の軸はフレーム数であり、縦方向の軸はスペクトラム(対数表現)である。評価に用いた音源とマイクロホンの配置は図10と同様である。図10のように面音源は、方位角が75度から105度の間に配置されている。
本実施形態のスキャンアンドサム ビームフォーマを用いて音源分離を行った結果、図19に示すように、適切に面音源を分離することができた。
本実施形態による面音源分離の利点は、音源とマイクロホンアレイの種類に応じてさまざまな種類のサブビームフォーマを選択できることと、さまざまなサイズと形状の音源に対してさまざまな理想的なパターンを定義できることである。このように、スキャンアンドサム ビームフォーマは、さまざまなシナリオに対して非常に柔軟である。
さらに、本実施形態では、選択したビームパターンの品質を評価ために、パフォーマンスとコストのバランスをとるコスト関数Jを備えたMSEを用いることで、精度良く評価できる。また、本実施形態によれば、評価したMSEによって、最適なマイクロホン数とスキャン角度をもとめることができる。
また、上述した第1と第2の例のように、本実施形態によれば、調整されたパラメーターと最適化されたパターンでスキャンアンドサム ビームフォーマを実装する方法に関するガイドラインが効果的である。
また、数値シミュレーションにより、本実施形態によれば、困難な状況で3つの面音源の混合物のSIRが改善された。
このように、本実施形態では、細分化した領域毎にサブビームフォーマを用いて、ビームフォーミング法によって細分化した領域の音響信号を収音された音響信号から抽出するようにした。そして、本実施形態では、細分化された領域毎に抽出した音響信号を加算することで、所望の面音源を分離するようにした。
これにより、本実施形態によれば、抑圧したい領域にある音源を適切に抑圧することができ、面音源を適切に分離できる。
なお、上述した音源分離システム1は、ロボット、受付システム、車両内の音声認識システム、音声認識を用いたスマートスピーカー、音声認識を用いた家電機器などの各種装置に適用することが可能である。
本実施形態によれば、抑圧したい領域にある音源を適切に抑圧することができ、面音源を適切に分離できるので、人間とロボットの相互作用などのアプリケーションで、ロボットのパフォーマンスが向上することができる。
なお、本発明における音源分離装置3の機能の全てまたは一部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより音源分離装置3が行う処理の全てまたは一部を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形および置換を加えることができる。
1…音源分離システム、2…収音部、3…音源分離装置、21,21−1,・・・21−N…マイクロホン、31…取得部、32…伝達関数記憶部、33…ビームパターン記憶部、34…音源分離部、35…出力部、341…分離部、342…評価部、343…選択部

Claims (7)

  1. 音響信号を収音する、第1間隔で配置されるN(Nは2以上の整数)個のマイクロホンを有するマイクロホンアレイと、
    所望の領域を第2間隔で細分化し、前記細分化した領域それぞれに対して、前記マイクロホンアレイによって収音された音響信号を、前記細分化した領域の方位角θに対応するサブビームを用いてビームフォーミング法によって分離して抽出し、前記抽出した音響信号を加算することにより前記所望の領域の音響信号を分離する音源分離部と、
    を備える音源分離装置。
  2. 前記サブビームのパターンは、次式で表され、
    Figure 2021197566
    上式において、D(θ)は音源の開始方位角θ以上源の終了方位角θ以下の場合に1であり他の方位角で0である所望の領域の音響信号を分離するための理想的なフィルタであり、Pθiはθ方向にビームの指向性を向けた場合の点音源を対象としたビームフォーマの指向特性であり、θは各ビームフォーマの指向性の方向であり、Hはエルミート共役を意味し、a(θ)は音源か前記マイクロホンへの伝達関数であり、WθiはビームフォーマPθiの係数ベクトルであり、この場合の面音源のビームフォーマの係数Wは次式であり、
    Figure 2021197566
    D(θ)を次式としたとき、
    Figure 2021197566
    θ=θ+(i−1)θscanと定義でき、bはθ=θとなるiの値であり、eはθ=θとなるiの値を示す、
    請求項1に記載の音源分離装置。
  3. コスト関数Jと、前記マイクロホンの数と、前記第2間隔と、の関係を算出する評価部と、
    前記評価部が算出した前記コスト関数と、前記マイクロホンの数と、前記第2間隔と、の関係において、コスト関数が最小になる前記マイクロホンの数と、前記第2間隔を選択する選択部と、
    をさらに備える請求項1または請求項2に記載の音源分離装置。
  4. 前記評価部は、
    ビームパターンと理想的なパターンの違いを次式の対数平均二乗誤差MSEを用いて算出し、
    Figure 2021197566
    次式を用いて前記コスト関数Jを算出し、算出した前記コスト関数Jと、前記マイクロホンの数Nと、スキャン角度θscanに基づいて、前記所望の領域の音響信号を分離するための最適な前記マイクロホンの数Nと、スキャン角度θscanを求め、
    Figure 2021197566
    上式において、αは所定値であり、λ、λそれぞれは調整パラメーターである、
    請求項3に記載の音源分離装置。
  5. 前記評価部は、
    前記コスト関数Jと、前記マイクロホンの数Nと、スキャン角度θscanを三次元グラフに表し、前記コスト関数Jが最小となる前記マイクロホンの数Nと、スキャン角度θscanを選択することで、最適な前記マイクロホンの数Nと、スキャン角度θscanを求め、
    前記音源分離部は、
    前記評価部によって選択された最適な前記マイクロホンの数Nと、スキャン角度θscanに更新する、
    請求項4に記載の音源分離装置。
  6. 第1間隔で配置されるN(Nは2以上の整数)個のマイクロホンを有するマイクロホンアレイが、音響信号を収音し、
    音源分離部が、所望の領域を第2間隔で細分化し、
    前記音源分離部が、前記細分化された領域それぞれに対して、音響信号を、前記細分化した領域の方位角θに対応するサブビームを用いてビームフォーミング法によって分離して抽出し、
    前記音源分離部が、前記抽出された音響信号を加算することにより前記所望の領域の音響信号を分離する、
    音源分離方法。
  7. コンピュータに、
    第1間隔で配置されるN(Nは2以上の整数)個のマイクロホンを有するマイクロホンアレイに音響信号を収音させ、
    所望の領域を第2間隔で細分化させ、
    前記細分化された領域それぞれに対して、前記細分化された領域の方位角θに対応するサブビームを用いてビームフォーミング法によって前記音響信号を分離して抽出させ、
    前記抽出された音響信号を加算することにより前記所望の領域の音響信号を分離させる、
    プログラム。
JP2020100287A 2020-06-09 2020-06-09 音源分離装置、音源分離方法、およびプログラム Active JP7316614B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020100287A JP7316614B2 (ja) 2020-06-09 2020-06-09 音源分離装置、音源分離方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020100287A JP7316614B2 (ja) 2020-06-09 2020-06-09 音源分離装置、音源分離方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2021197566A true JP2021197566A (ja) 2021-12-27
JP7316614B2 JP7316614B2 (ja) 2023-07-28

Family

ID=79196148

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020100287A Active JP7316614B2 (ja) 2020-06-09 2020-06-09 音源分離装置、音源分離方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP7316614B2 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005253071A (ja) * 2004-03-02 2005-09-15 Microsoft Corp マイクロフォン・アレイを使用するビーム・フォーミングのシステムおよび方法
JP2011203162A (ja) * 2010-03-26 2011-10-13 Nippon Expressway Research Institute Co Ltd 騒音対策効果量の推計方法
JP2018064215A (ja) * 2016-10-13 2018-04-19 キヤノン株式会社 信号処理装置、信号処理方法、およびプログラム
JP2018074252A (ja) * 2016-10-25 2018-05-10 キヤノン株式会社 音響システム及びその制御方法、信号生成装置、コンピュータプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005253071A (ja) * 2004-03-02 2005-09-15 Microsoft Corp マイクロフォン・アレイを使用するビーム・フォーミングのシステムおよび方法
JP2011203162A (ja) * 2010-03-26 2011-10-13 Nippon Expressway Research Institute Co Ltd 騒音対策効果量の推計方法
JP2018064215A (ja) * 2016-10-13 2018-04-19 キヤノン株式会社 信号処理装置、信号処理方法、およびプログラム
JP2018074252A (ja) * 2016-10-25 2018-05-10 キヤノン株式会社 音響システム及びその制御方法、信号生成装置、コンピュータプログラム

Also Published As

Publication number Publication date
JP7316614B2 (ja) 2023-07-28

Similar Documents

Publication Publication Date Title
EP3384684B1 (en) Conference system with a microphone array system and a method of speech acquisition in a conference system
Yan et al. Optimal modal beamforming for spherical microphone arrays
Benesty et al. Conventional beamforming techniques
Ryan et al. Array optimization applied in the near field of a microphone array
US7991166B2 (en) Microphone apparatus
JP2004507767A (ja) 目的信号源から雑音環境に放射される信号を処理するシステム及び方法
US20220060818A1 (en) Microphone arrays
Trucco et al. A stochastic approach to the synthesis of a robust frequency-invariant filter-and-sum beamformer
Tager Near field superdirectivity (NFSD)
Xia et al. Noise reduction method for acoustic sensor arrays in underwater noise
Neo et al. Robust microphone arrays using subband adaptive filters
Zheng et al. A microphone array system for multimedia applications with near-field signal targets
Frank et al. Constant-beamwidth linearly constrained minimum variance beamformer
Karo et al. Source localization with feedback beamforming
JP2021197566A (ja) 音源分離装置、音源分離方法、およびプログラム
JP3100563B2 (ja) 受信信号処理装置
Levin et al. Robust beamforming using sensors with nonidentical directivity patterns
Hossein et al. Performance investigation of acoustic microphone array beamformer to enhance the speech quality
Repetto et al. Designing superdirective microphone arrays with a frequency-invariant beam pattern
Nordholm et al. Performance limits of the broadband generalized sidelobe cancelling structure in an isotropic noise field
Ward et al. Broadband microphone arrays for speech acquisition
Zhong et al. Design and assessment of a scan-and-sum beamformer for surface sound source separation
Levin et al. Near-field superdirectivity: An analytical perspective
Zhong et al. Assessment of a beamforming implementation developed for surface sound source separation
CN114023307B (zh) 声音信号处理方法、语音识别方法、电子设备和存储介质

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20200709

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20201009

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20201009

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221012

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230614

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230627

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230707

R150 Certificate of patent or registration of utility model

Ref document number: 7316614

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150